Le 27 mars 2026, une nouvelle version du benchmark ARC-AGI a été rendue publique. Baptisé ARC-AGI-3, ce test évalue des systèmes d’IA dits « agentiques », capables d’agir et d’apprendre dans des environnements interactifs. Malgré leurs performances impressionnantes ailleurs, les meilleurs modèles échouent encore largement.

Tandis que la concurrence dans l’intelligence artificielle s’intensifie, chaque nouvelle génération de modèles se présente comme plus performante que la précédente. Gemini 3.1 Pro, GPT-5.4 ou encore Opus 4.6 affichent des résultats toujours plus élevés sur les benchmarks classiques. Pourtant, face à un test bien particulier, tous échouent.

Si vous vous êtes déjà intéressé aux benchmarks d’IA, vous avez peut-être croisé ARC-AGI-1 et ARC-AGI-2. Conçus par le chercheur français François Chollet, ces ensembles d’énigmes visuelles visent à mesurer non pas la quantité de connaissances d’un modèle, mais sa capacité à abstraire et à généraliser à partir de quelques exemples.

ARC-AGI-1 proposait des puzzles relativement simples pour un humain, mais souvent déroutants pour les modèles. ARC-AGI-2, lancé en mars 2025, en a étendu le principe, avec davantage de tâches et des énigmes combinant plusieurs règles, rendant les solutions moins évidentes à identifier. Au fil du temps, les performances des IA se sont progressivement améliorées sur ces tests. Mais cette dynamique pourrait atteindre ses limites.

Sur ARC-AGI-2, Gemini 3.1 Pro affiche 77,1 %.  // Source : Google
Sur ARC-AGI-2, Gemini 3.1 Pro affiche 77,1 %. // Source : Google

ARC-AGI-3 : toutes les IA échouent

ARC‑AGI est porté par le chercheur français François Chollet, créateur de la librairie de deep learning Keras et figure influente de l’IA chez Google. Pour inciter la communauté à s’y attaquer, la fondation ARC a lancé un programme de compétitions, l’ARC Prize 2026, doté de 2 millions de dollars, répartis entre plusieurs compétitions liées à ces benchmarks. Les équipes candidates doivent publier leurs solutions en open source, une contrainte assumée par les organisateurs pour que les progrès réalisés sur ARC‑AGI bénéficient à l’ensemble de la communauté, plutôt qu’à un seul laboratoire.

Ainsi, le 27 mars 2026, une nouvelle version, ARC-AGI-3, a été rendue publique. Elle introduit un changement de paradigme : au lieu de puzzles statiques, les modèles sont confrontés à des environnements interactifs dans lesquels ils doivent agir étape par étape, sans instructions explicites. Avec cette mouture, ARC bascule clairement vers des scénarios d’IA agentique : les systèmes doivent explorer, inférer des objectifs implicites, se construire une représentation de l’environnement, puis planifier leurs actions pour réussir chaque tâche.

ARC-AGI-3 // Source : Capture d'écran Numerama
ARC-AGI-3 // Source : Capture d’écran Numerama

Le benchmark est calibré pour que 100 % des environnements soient solvables par des humains, et des volontaires non entraînés y parviennent effectivement. À l’inverse, les systèmes d’IA de pointe restent aujourd’hui sous 1 % de réussite : Gemini 3.1 Pro atteint 0,37 %, GPT-5.4 0,26 %, Claude Opus 4.6 0,25 % et Grok-4.20 ferme la marche avec 0 %.

Bientôt l’IAG ?

Concrètement, ARC-AGI-3 se présente comme une collection de mini-« jeux » abstraits, joués au tour par tour : à chaque étape, l’agent observe l’état de l’environnement, choisit une action, puis voit le résultat avant de décider du coup suivant. L’ensemble est conçu pour ne pas reposer sur des connaissances du monde ou du langage, mais sur des capacités de raisonnement de base : détecter des régularités, manipuler des objets, anticiper les conséquences de ses actions. C’est précisément ce décalage — réussir rapidement face à une situation nouvelle, là où l’humain s’adapte en quelques essais — qui vaut à ARC-AGI-3 d’être décrit comme un véritable « test d’humanité ».

Gemini 3.1 Pro atteint 0,37 %, GPT-5.4 0,26 %, Claude Opus 4.6 0,25 % et Grok-4.20 0 %. // Source : Arxiv
Gemini 3.1 Pro atteint 0,37 %, GPT-5.4 0,26 %, Claude Opus 4.6 0,25 % et Grok-4.20 0 %. // Source : Arxiv

Pour l’équipe ARC, ce benchmark vise explicitement le terrain de l’« AGI », mais avec une définition précise : ils ne voient pas l’intelligence générale comme une liste de capacités spectaculaires, mais comme la capacité d’un système à acquérir n’importe quelle compétence humaine avec la même efficacité qu’un humain. Autrement dit, l’intelligence n’est pas la somme des compétences, mais la vitesse et l’économie avec lesquelles on apprend de nouvelles compétences. ARC-AGI-3 sert ainsi de thermomètre de l’écart qui reste avec ce niveau humain, en comparant, environnement par environnement, à quelle vitesse les modèles apprennent à maîtriser des situations entièrement nouvelles.

Dans ce cadre, l’intelligence est mesurée par une métrique d’« efficacité d’action », qui compare le nombre de tours nécessaires à l’IA et à un humain pour résoudre un environnement inédit : il ne suffit pas de finir un niveau, il faut le faire en un nombre d’actions comparable à celui d’un humain. Sur ce terrain très concret — réussir des petits jeux inconnus aussi vite qu’un humain — toutes les IA vedettes s’effondrent encore. Mais ce n’est peut-être qu’une question de temps.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+
Toute l'actu tech en un clien d'oeil

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !


Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !