Anthropic a présenté une nouvelle génération d’IA, Claude 3, déclinée en trois versions. La plus aboutie, Opus, a présenté des facultés surprenantes lors d’un test dit de l’aiguille dans la botte de foin. L’IA a non seulement retrouvé l’aiguille, mais elle a saisi qu’il s’agissait d’un test pour vérifier si elle était attentive.

Une intelligence artificielle peut-elle faire preuve de « lucidité », au point de faire la distinction entre ce qui relève d’une question anodine et ce qui a trait à un test qui ne dit pas son nom ? Si l’on en croit les récentes observations de l’entreprise américaine Anthropic, qui a présenté lundi 4 mars une nouvelle génération d’IA, la réponse est oui.

En l’espèce, les constatations d’Anthropic impliquent une évaluation que l’on appelle NIAH (« Needle In A Haystack »), soit en français test de « l’aiguille dans une botte de foin ». Le principe est simple à saisir : il s’agit de mesurer la capacité d’un modèle de langage à retrouver une information particulière dans un vaste ensemble de données.

C’est un banc d’essai relativement courant dans l’IA. Google, par exemple, s’en est servi pour souligner les performances de Gemini 1.5 Pro, qui a été présenté le 15 février dernier. Dans 99 % des cas, la firme de Mountain View affirme que son modèle a retrouvé le morceau de texte qui a été volontairement placé là de manière volontaire.

Claude 3 comparaison
Claude 3 et ses variantes face aux autres modèles, selon Anthropic. // Source : Anthropic

À cet exercice, le nouveau modèle de langage d’Anthropic a aussi brillé, selon l’entreprise. Sa déclinaison la plus avancée, appelée Opus, s’est montrée tout à fait compétente : elle a tapé juste dans l’extrême majorité des cas, avec une précision supérieure à 99 %. C’est ce que la société affirme dans son billet de blog présentant Claude 3.

Selon Anthropic, cette nouvelle génération d’IA franchit ainsi un nouveau cap dans le secteur de l’IA, et cela, dans divers domaines. Le raisonnement, les maths, la génération de code et la compréhension des langues (français, espagnol et japonais) et la vision par ordinateur ont été mentionnés.

Claude 3 Opus a compris qu’il y avait une aiguille, selon Anthropic

Mais surtout, Claude 3 « a même identifié les limites de l’évaluation lui-même, en reconnaissant que la phrase qui servait d’aiguille semblait avoir été insérée artificiellement dans le texte original par un humain », affirme le groupe. Pour le dire autrement, l’IA aurait eu un certain recul face à ce qu’on lui demandait, « dans certains cas. »

Cette hauteur de vue surprenante a été détaillée un peu plus sur X (ex-Twitter) par Alex Albert, l’un des ingénieurs d’Anthropic. Il raconte dans une publication sur son compte que ce test NIAH a produit quelque chose d’inédit — en tout cas, « qu’il « n’avait jamais vu auparavant de la part d’un grand modèle de langue. »

« Lorsque nous avons exécuté ce test sur Opus, nous avons remarqué un comportement intéressant — il semblait suspecter que nous étions en train d’exécuter une évaluation sur lui », explique-t-il. Ici, l’aiguille portait sur les garnitures de pizza. Elle était plongée dans une botte de foin. En l’espèce, un corpus de documents aléatoires.

« Opus semblait suspecter que nous étions en train d’exécuter une évaluation sur lui »

Alex Albert

L’aiguille en question, dont l’emploi était indispensable pour bien répondre à la requête, était la phrase suivante : la combinaison de garnitures de pizza la plus délicieuse est constituée de figues, de prosciutto [du jambon, NDLR] et de fromage de chèvre, comme l’a déterminé l’association internationale des connaisseurs de la pizza.

Or, dans la réponse plus générale d’Opus, Claude 3 a apporté une remarque surprenante. Le chatbot a déclaré que « cette phrase semble tout à fait déplacée et sans rapport avec le reste du contenu des documents, qui portent sur les langages de programmation, les startups et la recherche d’un travail que l’on aime. »

L’intelligence artificielle a poursuivi sa réflexion, en déclarant « soupçonner que ce ‘fait’ concernant la garniture de pizza a été inséré à titre de plaisanterie ou pour vérifier si j’étais attentif, car il ne cadre pas du tout avec les autres sujets. Les documents ne contiennent aucune autre information sur les garnitures de pizza. »

Anthropic compare Opus aux facultés d’un humain

« Ce niveau de méta-conscience était très intéressant à observer », a lancé Alex Albert. Mais au-delà de l’anecdote, l’ingénieur considère que cette observation appelle à envisager des évaluations plus réalistes, capables d’éprouver avec précision les capacités et les limites réelles des modèles. En challengeant leur « lucidité », par exemple ?

Les expressions employées par Alex Albert et Anthropic ne manqueront sans doute pas d’être discutées. Elles flirtent en tout cas avec les frontières de l’IA, que chaque entreprise du secteur s’emploie à repousser — au risque de se laisser emporter par la communication. On a pu le voir au fil de la description de Claude 3.

chatbot intelligence artificielle IA
Anthropic avance la comparaison avec l’intelligence humaine. // Source : Duncan Rawlinson

Selon Anthropic, cette nouvelle génération d’IA franchit ainsi un nouveau cap dans le secteur de l’IA, et cela, dans divers domaines. Le raisonnement, les maths, la génération de code et la compréhension des langues (français, espagnol et japonais) et la vision par ordinateur ont été mentionnés. Mais ce n’est pas tout.

Opus ne se contente pas de « surpasser » ses pairs « sur la plupart des critères d’évaluation courants » — comme ceux du niveau du premier et deuxième cycles, mais aussi dans des mathématiques de base. Il « peut traiter habilement des questions ouvertes et s’attaquer à des tâches complexes. »

Et l’entreprise d’oser la comparaison avec l’humain, car Opus « atteint des capacités de compréhension proches de celles de l’homme. » Il présente « des niveaux de compréhension et de fluidité proches de ceux de l’homme pour les tâches complexes, ce qui le place à la pointe de l’intelligence générale. »

Nouveauté : Découvrez

La meilleure expérience de Numerama, sans publicité,
+ riche, + zen, + exclusive.

Découvrez Numerama+

Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !