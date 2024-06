Lecture Zen Résumer l'article

La bataille de l’IA générative est une bataille de mises à jour et de choix des benchmarks pour mettre en valeur les chatbots. En juin, la startup Anthropic a présenté Claude 3.5 Sonnet. Selon elle, elle surpasse le tout nouveau modèle GPT-4o d’OpenAI.

Dans le domaine de l’intelligence artificielle générative, l’entreprise qui ne met pas à jour régulièrement ses modèles de langage est condamnée à se faire très vite dépasser. La concurrence est féroce, obligeant chaque société à dévoiler régulièrement une nouvelle version de sa plateforme. Cette fois, c’est Anthropic qui a dû y passer.

La startup américaine a dévoilé le 21 juin 2024 une nouvelle variante de son chatbot : Claude 3.5 Sonnet. Un nom obscur pour celles et ceux qui ne suivent pas l’actualité de l’IA générative. Claude est le nom qu’a donné Anthropic à son chatbot. Sonnet est l’un des modèles de langage de la startup. Et 3.5 désigne la nouvelle branche de Sonnet.

En mars, Anthropic avait présenté le chatbot Claude 3 avec trois modèles de langage : Haiku (un petit modèle), Sonnet (un de taille intermédiaire) et Opus (le plus étendu). L’annonce du 21 juin se focalise uniquement sur le modèle de langage intermédiaire, qui bénéficie donc en premier d’une évolution — les deux autres devraient prochainement suivre.

Dans son billet d’annonce, Anthropic se félicite que « Claude 3.5 Sonnet élève la barre de l’intelligence dans l’industrie, surpassant les modèles concurrents et Claude 3 Opus sur une large gamme d’évaluations, avec la vitesse et le coût de notre modèle de milieu de gamme, la famille Claude 3 Sonnet ».

GPT-4o vs Claude 3.5 Sonnet

La sortie de Claude 3.5 Sonnet arrive à un moment intéressant : un mois plus tôt, OpenAI présentait GPT-4o, un nouveau modèle de langage pour ChatGPT. Depuis, GPT-4o a été déployé dans le chatbot, à côté des deux modèles encore accessibles, GPT-3.5 et GPT-4, en attendant l’arrivée de GPT-5 probablement plus tard cette année.

Les benchmarks choisis par Anthropic. // Source : Anthropic

Et, sans surprise, Anthropic a sélectionné GPT-4o pour mettre en valeur les propres performances de Claude 3.5 Sonnet. Sur neuf tests d’évaluation, Claude 3.5 Sonnet est annoncé comme plus performant que GPT-4o, qui ne fait mieux que dans deux catégories : la résolution de problèmes de maths et la démonstration de connaissances.

En matière de compréhension visuelle, Claude 3.5 Sonnet est là aussi à son avantage : sur les cinq tests, quatre ont été remportés par le modèle d’Anthropic, et un seul par GPT-4o. La faculté des IA génératives à traiter des sources visuelles (des photos et des vidéos) s’améliore grâce au progrès dans la vision par ordinateur.

Dans l’ensemble, les écarts constatés pour chaque protocole de test sont variables. Certains benchmarks soulignent l’avance prise par Claude 3.5 Sonnet, là où d’autres montrent que cela s’est joué dans un mouchoir de poche. Au-delà de la comparaison avec la concurrence, Claude 3.5 Sonnet est surtout plus véloce.

Cet exercice de benchmark a toutefois ses limites : si chaque méthode d’évaluation a son intérêt, il existe de nombreuses façons de challenger les modèles et les entreprises ont tendance, de manière inévitable, à se tourner plutôt sur les tests qui les mettent plus en valeur. On ne trouve d’ailleurs pas toujours les mêmes d’une annonce à l’autre.

« Claude 3.5 Sonnet fonctionne deux fois plus vite que Claude 3 Opus », note ainsi Anthropic. Autre atout : il est disponible gratuitement sur le site de Claude.ai, mais aussi dans l’application iOS. Il est également fourni via des plateformes dans le cloud, comme Amazon Bedrock et Google Vertex AI.

