ChatGPT avec GPT-4 est-il devenu plus bête ?

Plusieurs utilisateurs de la version payante de ChatGPT constatent une baisse de la qualité des réponses de GPT-4 ces dernières semaines. OpenAI a-t-il fait quelque chose ?

Lancé en mai 2023, le modèle de langage GPT-4 est-il devenu moins pertinent ? Sur les réseaux sociaux, de nombreux utilisateurs de la version payante de ChatGPT disent constater une baisse de la qualité des réponses depuis plusieurs semaines. Le texte serait produit plus rapidement par l’IA, mais avec des incohérences plus récurrentes. Certains reprochent notamment à GPT-4 de réaliser des erreurs régulières lorsqu’il génère du code, ce qu’il ne faisait pas avant.

Tout a commencé sur Twitter le 20 mai dernier. « GPT-4 vient-il d’être lobotomisé ? » s’interroge Laura Wendel, qui se présente sur son profil comme ingénieure logicielle. ChatGPT « répond aux requêtes beaucoup plus rapidement, mais ses performances semblent bien moins bonnes qu’il y a quelques semaines (il ne suit pas correctement les instructions, fait des erreurs de codage très évidentes, etc.) », affirme-t-elle. Une expérience personnelle rapidement confirmée par une centaine de témoignages dans le même sens, même s’il faut toujours se méfier de l’effet placebo.

Was GPT4 just lobotomized?

It responds to queries a lot faster but seems to perform a lot worse than just a few weeks ago (not following instructions properly, making very obvious coding mistakes etc)

Quite likely they replaced it with a distilled smaller model to save costs?
— Laura Wendel (@Lauramaywendel) May 20, 2023

Une version (a priori) stable

Quand on est abonné à ChatGPT Plus, on a la possibilité de choisir entre plusieurs agents conversationnels. Il y a la version GPT-3.5, qui utilise le modèle « gpt-3.5-turbo » conçu pour répondre rapidement, puis la version GPT-4, qui utilise le dernier modèle de langage d’OpenAI. La mise à jour date du 12 mai a aussi apporté des modes optionnels, pour effectuer des recherches sur le web ou utiliser des plugins.

Very confused.

Almost seems like GPT-4 is worse than GPT-3.5…

What am I missing here?

GPT-3.5 on the left, GPT-4 on the right. pic.twitter.com/BzM3C50F1M
— Zach Gollwitzer (@zg_dev) May 20, 2023

Plusieurs internautes affirment que la marge de performance des réponses produites avec GPT-3.5 et GPT-4 s’est considérablement réduite.

Pour beaucoup, GPT-4, impressionnant à son lancement, est devenu plus bête ces dernières semaines, à tel point que GPT-3.5 le dépasse sur certaines questions.

Vos données méritent d’être mieux protégées.

Les escroqueries, les virus et les ransomwares ne sont plus une fatalité. Protégez votre vie privée et vos données personnelles avec Bitdefender et profitez de votre vie numérique en toute sérénité.

Selon nos propres tests basés sur des prompts de logique du New York Times, l’efficacité des réponses produites le 22 mai ne diffère pas de celle obtenue par nos confrères en mars, lors du lancement de GPT-4. Seule différence notable, l’IA semble moins enclin à répondre à certaines requêtes très techniques, comme l’autocompression des conversations. La modération semble, elle aussi, beaucoup plus efficace et complexe à contourner, ce qui veut dire qu’OpenAI est intervenu pour empêcher son IA de répondre à certaines questions problématiques.

Un test de logique avec GPT-4 déjà réalisé par le New York Times en mars done un raisonnement similaire en mai. // Source : Capture d'écran — Un test de logique avec GPT-4 déjà réalisé par le New York Times en mars donne un raisonnement similaire en mai. // Source : Capture d’écran

Comment expliquer ces (potentiels) changements ?

Pour perfectionner ses modèles et réduire le risque juridique, OpenAI est contraint de brider artificiellement les capacités de son IA. C’est le scénario qui apparaît le plus crédible pour expliquer les changements récents, même si ces derniers doivent encore être prouvés (il n’est pas rare que les réseaux sociaux s’emballent, alors qu’il n’y a pas eu de changement majeur). Les développeurs de l’entreprise pourraient également avoir procédé à diverses opérations d’apprentissage par renforcement à partir du feedback humain (RLHF) pendant la phase de production (avec un modèle actuellement utilisé par le public). Cette procédure permet d’ajuster les réponses du système assez précisément. Elle peut néanmoins contribuer, dans certains cas, à réduire la performance de l’IA sur certains sujets.

ChatGPT assure que son système n'a pas évolué depuis septembre 2021 : ce n'est évidemment pas le cas. // Source : Capture d'écran — ChatGPT assure que son système n’a pas évolué depuis septembre 2021 : ce n’est évidemment pas le cas. // Source : Capture d’écran

Enfin, scénario peu probable, mais évoqué par certains : l’utilisation d’un modèle alternatif pour réduire les coûts. L’exploitation d’un modèle aussi grand que GPT-4 demandant des ressources considérables, l’entreprise aurait pu être tentée d’utiliser une version moins gourmande en performance. Un tel tour d’illusionnisme aurait cependant été décelé bien avant par les experts du secteur, ce qui laisse supposer qu’il vaut mieux ne pas tomber trop vite dans les raccourcis.

Des modèles « non déterministes »

Enfin, OpenAI rappelle dans sa documentation que les modèles de l’entreprise sont « non déterministes, ce qui signifie que des entrées identiques peuvent produire des sorties différentes. » En clair, la probabilité d’obtenir la même réponse à une question posée plusieurs fois est quasiment nulle. Le déterminisme et la créativité des réponses sont gérés dans le système par la « température », une variable intrinsèque à l’API d’OpenAI. Les changements récents pourraient résulter d’une modification de ce paramètre au sein de l’interface web de ChatGPT.

Les différentes versions de GPT-4 disponibles au grand public actuellement. // Source : Capture d'écran — Les différentes versions de GPT-4 disponibles au grand public actuellement.

Des scientifiques de l’unité IA de Microsoft ont toutefois observé une régression majeure des progrès de GPT-4 sur un an. La première version (non publique) utilisée par les chercheurs était plus avancée que celle présentée en mars par OpenAI. Un bridage artificiel expliqué dans ce cas par le rodage pour le « grand public » de l’IA avant sa sortie officielle.

Sollicité sur les récentes remarques des utilisateurs sur GPT-4, OpenAI n’a pas encore répondu.

Numerama a le plaisir d’introduire sa toute dernière newsletter gratuite, « Artificielles », qui vous tient au courant des nouveautés récentes dans le domaine de l’intelligence artificielle. Elle est soigneusement rédigée par ChatGPT et scrupuleusement vérifiée par notre équipe dévouée. Pour souscrire, il suffit de compléter le formulaire ci-dessous :

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !

Tout comprendre à La guerre de l’IA