GAIA est un nouveau benchmark conçu pour mettre à genoux les intelligences artificielles génératives, comme ChatGPT. Ses premiers tests prouvent que les IA sont encore loin des humains sur des tâches élémentaires, puisqu’elles ne disposent pas de logique.

Les intelligences artificielles vont-elles tous nous remplacer ? Peut-être un jour, mais pas de suite.

S’il nous arrive régulièrement de tomber sur des propos anxiogènes annonçant que les IA sont désormais plus intelligentes que les humains et proches de l’état de conscience, la réalité est tout autre. Même les outils les plus sophistiqués peinent à faire autre chose qu’imiter le comportement humain, avec de nombreuses lacunes.

Pour le prouver, des chercheurs issus des équipes de Meta-FAIR, Meta-GenAI, HuggingFace, et AutoGPT ont mis au point GAIA, un nouveau benchmark dédié aux intelligentes artificielles. Un de leurs constats est le suivant : quand un humain répond favorablement à 92 % des questions, GPT-4 ne réussit que dans 15 % des cas de figure.

Yann LeCun, le Français en charge de l'IA chez Meta, a partagé GAIA sur son compte Twitter.
Yann LeCun, le Français en charge de l’IA chez Meta, a promu GAIA sur son compte Twitter. // Source : X

GAIA pose des questions de logique, pour mesurer « l’humanité » des IA

Dans les grandes lignes, GAIA est aux IA ce qu’AnTuTu est aux processeurs et ce que SpeedTest est aux box Internet. Concrètement, il s’agit d’une série de 466 questions, plus ou moins simples, qui sont plus adaptées aux humains qu’aux outils numériques.

GAIA demande par exemple aux IA de compter les inscriptions à un essai clinique sur un site, de calculer le pourcentage de matières grasses dans une glace par rapport à des normes fédérales, d’identifier le temps passé par un astronaute dans l’espace parmi un groupe, de se renseigner sur les promesses électorales d’un maire, de répondre à des problématiques de logique ou de faire le bilan d’une situation sur plusieurs années, à partir de ses propres observations…

GAIA couvre ainsi un éventail large de sujets et force les IA à utiliser plusieurs outils simultanément, pour pousser leurs réflexions au maximum.

Les questions ont plusieurs niveaux de difficultés, avec plus ou moins de paramètres.
Les questions ont plusieurs niveaux de difficulté, avec plus ou moins de paramètres. // Source : Capture Numerama

Si certaines questions peuvent avoir l’air simples, les résultats obtenus par GAIA prouvent que non. GPT-4 réussit 30 % des questions de niveau 1, mais échoue à toutes les questions les plus difficiles. Sa marge de progression semble immense, quand un humain peut répondre à 92 % des questions avec les outils dont il dispose. Les intelligences artificielles peinent à comparer plusieurs sources, ce qui rend leurs résultats approximatifs dès qu’une question engage plusieurs pistes de réflexion.

L’intérêt d’un benchmark comme GAIA est évidemment de comparer les IA, afin de suivre les évolutions d’un modèle de langage. L’outil devrait aider les chercheurs à améliorer leurs produits, pour pourquoi pas un jour vraiment proposer une intelligence artificielle capable de « réfléchir » (on pense notamment au projet Q Star d’OpenAI, que certains présentent comme capable de logique mathématique). Les chercheurs reconnaissent néanmoins que GAIA n’est pas parfait, puisqu’il limite ses questions à l’anglais et ne prend pas en compte la manière dont une IA est arrivée à trouver sa réponse. Il pourrait néanmoins aider les entreprises comme OpenAI, Meta ou Google à améliorer leurs futurs produits.

Nouveauté : Découvrez

La meilleure expérience de Numerama, sans publicité,
+ riche, + zen, + exclusive.

Découvrez Numerama+

Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !