Les modèles de langage open source se rapprochent de leurs rivaux fermés et propriétaires, selon une étude comparant les performances des uns et des autres. Si les seconds sont toujours devant, l’écart s’est réduit en 2023.

Quel est le point commun entre LlaMA, Flan-T5-XXL et Mixtral 8x7B ? Hormis des noms en apparence barbares, ce sont tous de grands modèles de langage, c’est-à-dire des systèmes spécialisés dans le traitement automatique du langage naturel. C’est grâce à eux qu’il est possible d’avoir de l’IA générative, comme ChatGPT pour le texte ou Dall-E pour le dessin.

Mais ces trois modèles partagent une autre caractéristique : ils sont tous open source. Il est possible d’accéder au code pour analyser leur fonctionnement. Flan-T5-XXL est ainsi disponible via le site Hugging Face, Mixtral 8x7B peut être récupéré via un fichier torrent et le modèle LlaMA est à retrouver sur le site de Meta, la maison mère de Facebook.

Or, une analyse récente sur les performances des LLM (large language models) fait le constat d’une tendance de fond : les modèles de langage open source comme LlaMA ou Mixtral sont manifestement en phase de rattrapage par rapport aux LLM privés — c’est-à-dire ceux dont les fondations techniques ne sont pas librement partagées.

Ces modèles propriétaires sont bien connus. On retrouve les solutions de Google (Chinchilla, PaLM, Gemini), ainsi que Claude, développé par l’entreprise Anthropic, et les multiples générations de GPT, le modèle d’OpenAI qui fait tourner ChatGPT. Tous sont fermés et, selon le graphique de l’étude, tous sont globalement supérieurs à leurs contemporains libres.

ark open source llm propriétaire privé fermé libre
Dans la course à l’IA générative, l’open source a l’air de rattraper les modèles fermés. // Source : Ark

Mais pour combien de temps ? À en croire le mouvement suggéré par le graphique, les LLM open source vont bientôt et même rattraper les LLM privés. Si les seconds font encore la course en tête, l’écart apparaît se résorber progressivement. On peut imaginer que les deux courbes finiront par se croiser dans deux à trois ans, s’il n’y a pas de changement brusque dans ces trajectoires.

Ces travaux ont été menés par les équipes de Catherine Wood, fondatrice et directrice générale d’Ark Investment Management. Il s’agit d’une société américaine de gestion d’investissement spécialisée dans les fonds négociés en bourse, qui se positionne dans plusieurs domaines, dont celui de l’intelligence artificielle. Elle est aussi impliquée dans les crypto-monnaies.

L’open source progresse face aux modèles fermés

Ils ont été salués par Yann Le Cun, le directeur scientifique de l’IA chez Meta. « Les modèles d’IA open source sont en passe de dépasser les modèles propriétaires », a-t-il réagi le 14 décembre. L’intéressé prêche, il est vrai, aussi pour sa paroisse. Sa société a aussi embrassé l’ouverture pour l’IA générative. Les deux modèles LlaMA cités dans l’étude sont de Meta.

Un commentaire que partage Catherine Wood. « Bien que toujours en retard, la performance des modèles d’IA open source s’améliore par rapport aux modèles fermés », a-t-elle réagi sur X (ex-Twitter). Le seul relativement en retard parmi les IA propriétaires est Grok, la solution lancée par Elon Musk. L’impression que ce chatbot laisse est assez contrastée.

Dévoilée en décembre, et mise à jour par la suite de façon à intégrer des modèles plus récents comme Gemini et Mixtral, l’étude compare les modèles à travers le temps (axe des abscisses) et sur une faculté particulière (axe des ordonnées). Celle-ci porte sur l’erreur logarithmique absolue des performances en matière de compréhension massive des langues multitâches.

Le logo de Gemini. // Source : Google
Le nouveau modèle de Google, Gemini, est pris en compte. // Source : Google

Selon Jozef Soja, qui a participé à l’étude, « cela rend mieux compte du fait que chaque amélioration marginale des performances est plus difficile à atteindre que la précédente ». Par ailleurs, cette manière de faire permet de « montrer à quel point le GPT-4 est actuellement en tête du peloton ». GPT-4 est aujourd’hui le modèle le plus abouti d’OpenAI, avec GPT-4 Turbo.

L’intéressé ajoute « qu’il est particulièrement intéressant de voir à quel point les derniers modèles open source semblent être performants par rapport à leur taille. Mixtral bat GPT 3.5 sur ce benchmark avec une fraction des paramètres ». GPT-3.5 est sorti début 2020, tandis que Mixtral a été annoncé en décembre 2023.

L’étude d’Ark offre une photographie incomplète du paysage — l’ensemble des modèles de langage, open source ou fermés, ne figurant pas sur le graphique. On retrouve néanmoins les plus médiatisés, avec ceux des géants du web — Google, Meta (Facebook) ou même OpenAI, qui bénéficie du soutien et des financements de Microsoft.

Des acteurs de plus petite taille sont aussi présents (tels Claude et Mixtral) et des solutions étrangères peu connues en Occident. C’est le cas de Falcon 180B, un modèle de langage conçu par l’Institut d’innovation technologique des Émirats arabes unis, mais aussi Yi-34B de la startup chinoise 01.ai. D’autres pourraient être ajoutées si le graphique est maintenu à jour.

Les constats de l’étude interrogent sur la pertinence, à terme, de conserver des modèles fermés si l’open source offre de meilleures perspectives. Cette éventualité pourrait alors remettre l’orientation prise par OpenAI, par exemple. On se souvient que la société avait qualifié d’erreur l’idée d’embrasser l’open source à ses débuts. Le futur pourrait lui donner tort.


Si vous avez aimé cet article, vous aimerez les suivants : ne les manquez pas en vous abonnant à Numerama sur Google News.