L'organisation OpenAI a décidé de ne pas publier tous les résultats de ses recherches, de peur que des utilisateurs malintentionnés détournent son nouveau générateur de texte à des fins malveillantes.

La démo mise en ligne est impressionnante. Dans un tweet publié le 14 février 2019, OpenAI a présenté GPT-2, la deuxième version de son générateur automatique de texte si performant qu’il ne sera, pour l’instant, pas diffusé au grand public librement.

OpenAI est une organisation à but non lucratif soutenue à ses débuts par Elon Musk, le patron de Tesla et SpaceX. Il a précisé qu’il ne s’était pas impliqué dans l’organisation depuis «  plus d’un an ».

Dans l’exemple ci-dessus, on voit que la machine est capable d’écrire la suite du communiqué de l’organisation, en variant le ton et le style en fonction de ce qu’on lui demande. «  Nous avons entraîné un modèle de langage qui peut générer des paragraphes cohérents et peut, de manière rudimentaire, réussir à comprendre les écrits, traduire, répondre aux questions et résumer efficacement — tout ça sans entraînement spécifique », résumé OpenAI.

Se prémunir d’une utilisation malveillante

La clé de cette réussite se trouve dans la large base de données avec laquelle l’IA a été nourrie : 40 Go de textes trouvés sur internet. Cela correspond à 8 millions de pages web.

Les résultats, eux, sont tellement impressionnants qu’OpenAI a décidé d’aller à l’encontre de son principe d’ouverture des sources : « Vu que nous avons des réserves sur de potentielles utilisations malveillantes de notre technologie, nous ne diffuserons pas ce modèle. Nous allons à l’inverse, dans une démarche expérimentale de diffusion responsable, publier un modèle bien plus petit, pour que des chercheurs puissent expérimenter, ainsi qu’une publication technique. »

Un exemple de texte généré par l’IA d’OpenAI après une question sur le recyclage // Source : OpenAI

Ce qui rend GPT-2 novateur, c’est sa capacité à apprendre seul, sans supervision, explique l’équipe de chercheur dans la publication scientifique mise en ligne. La masse de données suffit à l’algorithme pour réussir à en sortir des informations cohérentes et précises, et générer des phrases qui ont un sens. À l’ère des infox et des deep fakes, un tel outil est évidemment considéré comme potentiellement dangereux. Dans l’exemple capturé ci-dessus, GPT-2 a généré un long texte anti-recyclage qui contient des arguments précis et une chaîne de pensée qui suit une vraie logique.

Certains internautes ont reproché cette démarche de « diffusion responsable » à OpenAI, estimant que l’avancée de la recherche devait primer sur les risques.

OpenAI avait déjà développé un générateur appelé GPT, présenté en juin 2018. La version 2 est beaucoup plus performante et aboutie.

Partager sur les réseaux sociaux