L’utilisation de l’IA à grande échelle fait apparaitre de nouvelles tendances de langage — et fait ressortir certains mots surannés. L’utilisation de certains mots serait même devenue révélatrice de textes générés par ChatGPT, mais surtout de la façon dont il a été entrainé.

« Delve » n’est pas vraiment un mot anglais employé fréquemment. Il désigne le fait d’« atteindre quelque chose depuis une surface », ou d’« examiner quelque chose en détail, essayer de trouver des informations », d’après le dictionnaire de Cambridge. Pourtant, depuis 2023, son utilisation dans les articles de recherche scientifiques a été multipliée par 10, comme l’a remarqué l’expert en intelligence artificielle Jeremy Nguyen.

Pourquoi cette augmentation si subite et cocasse de l’utilisation du mot « delve » ? La réponse serait simple, selon le chercheur : ChatGPT. Le chatbot d’OpenAI serait massivement utilisé pour écrire les articles de recherches, racontait Jeremy Nguyen dans un post sur X (ex-Twitter). Mais « delve » n’est pas le seul mot inhabituel utilisé de manière disproportionnée par l’intelligence artificielle — et cela serait dû à la façon dont les chatbots sont entrainés.

ChatGPT développe ses propres tics de langage, inspirés par les travailleurs qui l’ont formé

Dans un article publié le 16 avril 2024, The Guardian explique que cette manie d’utiliser « delve » à tout-va n’est pas un hasard : « il s’agit plutôt d’un phénomène très réel, lié à la façon dont ChatGPT a été développé. » Comme les autres chatbot, ChatGPT s’appuie sur un modèle de langage pour fonctionner — et ce modèle lui-même a été entrainé à partir de gigantesques quantités de textes trouvés sur Internet. Ces textes ont ensuite été labellisés, et l’entrainement des IA sur ces modèles de langage supervisé par des humains.

Cependant, ces humains sont, la plupart du temps, des travailleurs précaires, des « petites mains de l’IA » travaillant à bas prix depuis le Kenya ou Madagascar pour étiqueter les données. Or, si « delve » est peu employé dans l’anglais britannique ou américain, au Nigeria, le mot « est beaucoup plus fréquemment utilisé dans l’anglais des affaires », note le Guardian. « Les personnes chargées de l’apprentissage des IA ont donc fourni des exemples utilisant leur langue, ce qui a permis d’obtenir un système d’IA qui écrit légèrement comme de l’anglais parlé en Afrique. »

Les IA utilisant le français sont, elles, habituellement entrainées par des travailleurs malgaches — et les résultats qu’elles produisent pourraient donc être influencées par leur façon de parler. Comme l’algospeech, cette façon de parler sur TikTok pour éviter la modération de l’algorithme, l’utilisation de ChatGPT crée une nouvelle façon de s’exprimer sortie tout droit de cette « colonisation numérique » : le « AI-ese », qui pourrait être traduit en français par l’« ialien ».

« Delve », comme dirait ChatGPT // Source : Numerama
« Delve », comme dirait ChatGPT // Source : Numerama

Cet « ialien » est particulièrement remarquable, et l’article du Guardian et les remarques de Jeremy Nguyen n’ont donc pas étonné les habitués de l’IA. Dans un subreddit dédié à ChattGPT, les utilisateurs se sont amusé à partager les autres termes qui étaient, selon eux, indicateurs de phrases écrites par le chatbot. Parmi ceux qui sont le plus revenus, on peut noter « mysterious », « burgeoning », « demystify », « robust » et « safeguard ». Individuellement, aucun de ces mots n’est vraiment étonnant (à l’exception peut-être de bourgeoning, rarement employé au quotidien), c’est surtout l’utilisation combinée de ces termes qui est généralement signe d’une IA.

Il n’y a pas qu’en anglais que ChatGPT a des tics de langage. Les journalistes de Numerama utilisent quotidiennement l’IA afin de réaliser les résumés d’articles (qui sont disponibles avec l’abonnement Numerama Plus), et ont ainsi pu remarquer certains de ces « tics ». L’IA génère souvent des phrases très longues, avec un vocabulaire alambiqué, et elle a une propension fatigante à utiliser du participe présent. En générant le résumé pour cet article, ChatGPT a ainsi utilisé « décupler », « pratiques linguistiques »… mais pour une fois, pas de participe présent.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+

Si vous avez aimé cet article, vous aimerez les suivants : ne les manquez pas en vous abonnant à Numerama sur Google News.