ChatGPT n’est-il entrainé qu’en anglais, comme l’affirme Mélenchon ?

Jean-Luc Mélenchon a remis en cause la manière dont ChatGPT a été entraîné, en affirmant qu’il n’est basé que sur des textes anglais. La réalité technique est différente. Si le corpus inclut essentiellement de l’anglais, d’autres langues ont servi à préparer le chatbot.

C’est un tweet en apparence anodin, publié dans la journée du 5 novembre 2023 sur le compte X (ex-Twitter) de Jean-Luc Mélenchon. Un tweet parmi de nombreux autres, qui retranscrivaient plusieurs interventions marquantes du leader de la France Insoumise. L’intéressé tenait une conférence « Faites mieux » à Strasbourg, dans laquelle divers sujets étaient abordés.

C’est alors que le parlementaire a abordé une actualité technique, en taclant le fonctionnement de ChatGPT, l’agent conversationnel dont tout le monde parle depuis un an, et développé par le laboratoire américain OpenAI. « Le problème de ChatGPT est que cette technologie ne pense et n’apprend qu’en anglais », a déclaré M. Mélenchon.

ChatGPT et Jean-Luc Mélenchon — Capture d’écran du tweet, depuis le cache de Google. // Source : Capture d’écran

Ce tweet a aujourd’hui disparu, mais il était encore possible de le voir dans le cache de Google le 6 novembre. Surtout, l’intervention de Jean-Luc Mélenchon sur le chatbot peut être réécoutée directement dans la vidéo intégrale de la conférence. À ce moment-là, le député évoquait plus généralement l’influence du numérique sur le comportement et la manière de penser des individus.

« ChatGPT a un gros problème »

Le commentaire exact de Jean-Luc Mélenchon sur ChatGPT était le suivant : « ChatGPT a un gros problème. Elle est anglophone. Elle pense, si j’ose dire, en anglais. On lui apprend en anglais, et après elle traduit. » L’intervention du chef de file de la gauche visait, en creux, à alerter le public sur un outil qui façonne la pensée selon une vision anglophone du monde.

« Chaque langue porte une manière de voir la réalité. […] Le vocabulaire décrit la réalité ou la fait cesser d’exister. » Il vaudrait donc mieux encourager des modèles de langage capables de travailler sur des langues variées, avec leurs particularités en matière de grammaire, de syntaxe et de représentation du monde, pour saisir toutes les subtilités du réel.

Vos données méritent d’être mieux protégées.

Les escroqueries, les virus et les ransomwares ne sont plus une fatalité. Protégez votre vie privée et vos données personnelles avec Bitdefender et profitez de votre vie numérique en toute sérénité.

Pour souligner cette réalité, Jean-Luc Mélenchon a repris à son compte l’allégation selon laquelle les samis ou bien les inuits ont des dizaines de mots pour parler de la neige : « vingt-cinq noms pour décrire l’état de la neige quand vous êtes un Lapon », a-t-il lancé à l’auditoire. Une allégation que l’on retrouve pour d’autres mots, mais critiquée — les Écossais feraient pire avec le scots.

Un flocon de neige. // Source : Pixabay (photo recadrée)

Quoi qu’il en soit, ce sujet a posé la question des biais dans le modèle de langage qui sous-tend ChatGPT (GPT-3.5 pour la version gratuite, GPT-4 pour la version payante). Un problème sur lequel OpenAI ne fait pas l’impasse. Le laboratoire américain en parle au fil de ses pages, notamment dans sa rubrique d’aide sur son site web.

« Le modèle est orienté vers les points de vue occidentaux et livre les meilleurs résultats en anglais », écrit OpenAI dans une page, et « ChatGPT n’est pas exempt de préjugés et de stéréotypes ». « L’atténuation des préjugés est un domaine de recherche permanent pour nous, et nous accueillons volontiers les commentaires sur la manière de l’améliorer. »

« Le modèle est orienté vers les points de vue occidentaux et donne les meilleurs résultats en anglais »
OpenAI

Le laboratoire reconnaît que « les modèles sont optimisés pour une utilisation en anglais, mais, ajoute-t-il plus loin, beaucoup d’entre eux sont suffisamment robustes pour générer de bons résultats dans une variété de langues ». Cela se constate en français : les formules du chatbot donnent l’impression d’un échange naturel.

Un modèle surtout entraîné en anglais, mais pas que

Il est exact de dire que les modèles de langage derrière ChatGPT ont été formés via de grandes quantités de textes provenant d’Internet, en particulier de sites comme Reddit et Wikipédia. Il est également juste de dire que ce corpus est surtout rédigé en langue anglaise, qui est la plus courante sur le net. Ce n’est toutefois pas la seule source utilisée par ChatGPT.

OpenAI l’explique dans un article du 14 mars, pour montrer de quelle façon GPT-4 peut aider l’Islande à préserver sa langue. Dans ce sujet, le laboratoire confirme que « la majeure partie de l’ensemble de formation du modèle est en anglais et dans d’autres langues majeures ». Le détail de ces langues n’est pas donné.

Selon Des dictionnaires à Internet, les évolutions de la langue du linguiste Michaël Abecassis, le net est dominé par trois langues : l’anglais, le chinois et l’espagnol. On trouve aussi, dans des proportions moindres, le japonais, le portugais, l’allemand, l’arabe, le français, le russe et le coréen. En 2012, le français avait un poids estimé autour de 3 % sur le net.

traduction translate translation langue — L’anglais reste la langue la plus courante sur le net. // Source : Mozilla

En conséquence, poursuivait OpenAI, ChatGPT « n’a pas les mêmes capacités ou la même compréhension des langues plus petites ». Mais, « les modèles se sont améliorés au fil du temps ». GPT est à sa quatrième génération — voire cinquième, si l’on distingue GPT-3.5, qui est celle actuellement déployée sur le chatbot dans sa version gratuite.

Un regard critique et éclairé à avoir

Avant que le tweet ne disparaisse, plusieurs internautes se sont efforcés de corriger les propos de Jean-Luc Mélenchon ou, du moins, de préciser sans doute la pensée qu’il a cherché à développer : ChatGPT ayant été surtout entraîné en anglais, il rend essentiellement une certaine vision du monde vu principalement à travers une paire de lunettes anglophones.

C’est le cas d’internautes comme ToineSayan, Patedam, Ari Kouts, OuranosMK ou encore Un chercheur à l’Inria (Institut national de recherche en sciences et technologies du numérique). Même Étienne Klein, Physicien et philosophe des sciences, y est allé de son tweet, en expliquant que certains de ses ouvrages en français ont été utilisés pour entraîner ChatGPT.

Au-delà de l’imprécision de Jean-Luc Mélenchon sur la conception de ChatGPT, qui lui a valu de nombreuses réactions sur les réseaux sociaux, ce qui semble traduire un briefing imparfait de ses équipes sur le sujet, le leader de La France Insoumise invite le public à garder un regard critique sur ces outils, et le numérique en général.

« Regardons comment ça marche », a-t-il lancé à son auditoire, car, « cette énorme culture numérique à laquelle nous allons pouvoir accéder transforme la condition humaine » — et même, « la manière de l’utiliser va changer votre cervelle ». En clair, « Il faut toujours être dans un rapport critique, mais pas dans un rapport apeuré ». Un rapport qu’il faut critique, certes, mais aussi éclairé.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !

Toutes les infos sur ChatGPT

ChatGPT

Télécharger gratuitement