L’open source de retour en grâce chez OpenAI, la société derrière GPT-4 et ChatGPT ? L’entreprise est attendue sur ce terrain avec l’ouverture d’un de ses modèles de langage les plus récents. Un revirement qui serait justement lié à la pression du secteur de l’open source.

Il n’y a que les imbéciles qui ne changent pas d’avis, a-t-on coutume de dire. La société américaine OpenAI, désormais mondialement connue grâce à son célèbre chatbot ChatGPT, est peut-être en train d’opérer un (timide) revirement sur l’open source. Dans son édition du 15 mai, le site The Information évoque un geste à venir de la part de l’entreprise sur ce terrain.

Plus exactement, OpenAI prévoit la publication en open source d’un de ses modèles de langage. Les modèles de langage sont le socle technique sur lequel reposent les agents conversationnels comme ChatGPT. C’est le « moteur » qui fait tourner le chatbot, en lui indiquant comment fonctionner et comment répondre aux requêtes des internautes.

OpenAI a construit plusieurs modèles de langage au fil du temps. Il y a eu GPT-1 en 2018, suivi de GPT-2 en 2019, GPT-3 en 2020 et GPT-4 en 2023. Au moment du lancement de ChatGPT, la plateforme fonctionnait avec une version raffinée de GPT-3, appelée GPT-3.5. Depuis l’annonce de GPT-4 en mars, OpenAI a adapté ChatGPT pour offrir des réponses de meilleure qualité.

Source : Matheus Bertelli
ChatGPT repose sur des modèles de langage pour fonctionner. // Source : Matheus Bertelli

Historiquement, OpenAI était attachée au principe de l’open source en publiant un maximum de ses travaux à travers des licences permissives. C’était notamment le cas des modèles de langage GPT-1 et GPT-2. À partir de GPT-3, toutefois, il y a eu un tournant philosophique dans l’approche de la société quant à ses avancées. Depuis lors, l’open source n’a plus cours.

Il est très improbable de penser que le modèle de langage qui sera ouvert sera GPT-4. C’est le modèle le plus récent et le plus stratégique d’OpenAI, et peut-être aussi le plus sensible. C’est aussi une plateforme qui a des enjeux commerciaux, via le partenariat noué avec Microsoft (qui l’intègre dans Bing) et la formule payante ChatGPT Plus, à 20 dollars par mois.

C’est vraisemblablement du côté de GPT-3 ou de GPT-3.5 que cette ouverture se fera, qui sont des modèles de langage désormais relativement datés — plus de trois ans pour le premier, mais un an pour le second. GPT-2, le dernier grand modèle d’OpenAI à être entièrement accessible, a fêté ses quatre ans en début d’année.

Ce pas en direction de l’open source va-t-il en appeler d’autres ? Cela reste à voir. En mars, Ilya Sutskever, l’un des cofondateurs d’OpenAI et le scientifique en chef du projet, a justifié les raisons pour lesquelles sa société s’est éloignée de l’ouverture qui la caractérisait à ses débuts. Aujourd’hui, GPT-4 n’est utilisable qu’avec un mode d’accès contrôlé, via une API fournie par OpenAI.

La pression de l’open source va-t-elle obliger tout le secteur à s’y mettre ?

Cette ouverture peut être le signe que le secteur de l’open source commence à être au niveau des solutions propriétaires, ce que note The Information : les modèles libres et gratuits sont désormais assez proches, en termes de performances, des solutions fermées proposées par Google ou OpenAI. Dès lors, les maintenir opaques a de moins en moins de sens.

L’ouverture attendue chez OpenAI, sous la pression du développement de l’open source, pourrait aussi se répercuter chez les autres géants de la tech, de Google à Facebook, qui travaillent, eux aussi, sur leurs propres modèles. La pression risque de monter d’autant plus vite que l’avance des solutions propriétaires sur l’open source ne serait pas si importante que cela.

IA robot chatbots agents
L’avenir des modèles de langage est-il dans l’open source ? // Source : Numerama avec Midjourney

C’est ce que suggère un document interne chez Google qui a fuité et dont le site SemiAnalysis se fait l’écho début mai. Lorsque les performances seront équivalentes ou même supérieures, les développeurs de logiciels vont certainement préférer se tourner vers ces solutions, pour des raisons de coût, mais aussi de commodité et d’efficacité.

« Si nos modèles conservent un léger avantage en termes de qualité, l’écart se réduit étonnamment vite. Les modèles à code source ouvert sont plus rapides, plus personnalisables, plus privés et plus performants », lit-on dans la note. Et d’ajouter que « la vérité désagréable est que nous ne sommes pas en position de gagner cette course aux armements, pas plus que l’OpenAI. »


Si vous avez aimé cet article, vous aimerez les suivants : ne les manquez pas en vous abonnant à Numerama sur Google News.