Google a-t-il utilisé certaines données de ChatGPT pour entraîner sa propre IA, Bard ? C’est ce qui transparait d’une enquête du média américain The Information. Google dément.

La guerre que se livrent les géants du net dans l’intelligence artificielle a peut-être sa première grande polémique. Dans un article publié le 29 mars, The Information raconte de quelle façon Google mobilise ses troupes en interne pour faire face à OpenAI, l’entreprise dont les produits — ChatGPT, DALL-E — font l’actualité.

Une controverse qui éclipse presque le cœur de l’enquête du site, qui se focalise sur la manière dont les deux divisions de la firme de Mountain View les plus en pointe dans l’IA ont été amenées à collaborer, alors qu’elles étaient historiquement rivales. Une coopération qui illustre le vieil adage : l’ennemi de mon ennemi est mon ami, surtout s’il s’agit d’un compétiteur extérieur.

Google Brain est spécialisée dans les infrastructures en IA, comme TensorFlow, et des méthodes d’apprentissage, comme AutoML. Ses outils ont permis de concevoir des technologies comme BERT, utilisé avec le moteur de recherche. De son côté, DeepMind est une startup rachetée par Google, et dont le grand fait d’arme a été de battre l’un des meilleurs jours de go.

Les deux compagnies ont été quelque peu contraintes de travailler ensemble, selon The Information, à travers une nouvelle initiative appelée Gemini. En ligne de mire, OpenAI, dont les deux principaux produits qui occupent le devant de la scène depuis plusieurs mois — et plus particulièrement ChatGPT, dont la spécialité est la création de textes à la demande.

ChatGPT, modèle malgré lui de Bard ?

Néanmoins, dans cet effort pour donner le change, Google est mis en cause : le groupe aurait été jusqu’à entraîner son propre agent conversationnel, Bard, avec certaines données de ChatGPT — en utilisant pour cela les informations se trouvant sur ShareGPT, un site dans lequel on peut partager les conversations « les plus folles » avec ChatGPT. Il y en a plus de 116 000 recensées.

Contacté par The Verge, Google rejette en bloc ces allégations. « Bard n’est pas entraîné sur des données provenant de ShareGPT ou de ChatGPT », a lancé un porte-parole. Mais est-ce que cela a été le cas par le passé ? À cette deuxième question, l’entreprise a éludé. Elle n’a commenté que pour le temps présent, pas pour ce qui a pu se passer jadis.

The Conversation raconte qu’un ingénieur en IA travaillant chez Google a fini par rejoindre OpenAI. Avant de changer d’entreprise, Il aurait cherché à avertir son ex-employeur de ne pas puiser dans les données de ChatGPT, car cela risquerait d’être une violation des conditions d’utilisation — et risquerait de générer des réponses trop semblables.

Écran d’accueil de ChatGPT. // Source : OpenAI

Toujours selon le site, Google aurait effectivement utilisé des données, puis cessé après ces mises en garde répétées. Il n’est pas précisé ce qu’il est advenu des données utilisées précédemment — si elles ont été conservées ou supprimées après leur utilisation pour entraîner Bard. Le chatbot repose sur LaMDA, un modèle de langage identique à GPT-3.5 ou GPT-4.

Les débuts de Bard ont été difficiles. La présentation du chatbot a été minime, son exactitude discutable et sa disponibilité limitée. L’outil, sorti bien après, a quelque difficulté à exister face à ChatGPT, omniprésent dans les esprits. Surtout, Google ne semble pas désireux à aller dans cette direction, pour des raisons de modèle d’affaire, à la différence de son rival, Microsoft, qui mobilise des moyens colossaux, car il y voit une opportunité stratégique.

