Qu'est-ce que le test ARC-AGI-3 où GPT-5.4 et Gemini échouent ?

Résumé par IA, vérifié par Numerama

Publié le 27 mars 2026, ARC‑AGI‑3 remplace les puzzles statiques par des environnements interactifs.
Les systèmes d’IA de pointe y restent sous 1 % de réussite, malgré leurs performances record sur d’autres benchmarks.
Il mesure l’« AGI » comme efficacité d’apprentissage en comparant le nombre d’actions d’un agent à celui d’un humain.

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Le 27 mars 2026, une nouvelle version du benchmark ARC-AGI a été rendue publique. Baptisé ARC-AGI-3, ce test évalue des systèmes d’IA dits « agentiques », capables d’agir et d’apprendre dans des environnements interactifs. Malgré leurs performances impressionnantes ailleurs, les meilleurs modèles échouent encore largement.

Tandis que la concurrence dans l’intelligence artificielle s’intensifie, chaque nouvelle génération de modèles se présente comme plus performante que la précédente. Gemini 3.1 Pro, GPT-5.4 ou encore Opus 4.6 affichent des résultats toujours plus élevés sur les benchmarks classiques. Pourtant, face à un test bien particulier, tous échouent.

Si vous vous êtes déjà intéressé aux benchmarks d’IA, vous avez peut-être croisé ARC-AGI-1 et ARC-AGI-2. Conçus par le chercheur français François Chollet, ces ensembles d’énigmes visuelles visent à mesurer non pas la quantité de connaissances d’un modèle, mais sa capacité à abstraire et à généraliser à partir de quelques exemples.

ARC-AGI-1 proposait des puzzles relativement simples pour un humain, mais souvent déroutants pour les modèles. ARC-AGI-2, lancé en mars 2025, en a étendu le principe, avec davantage de tâches et des énigmes combinant plusieurs règles, rendant les solutions moins évidentes à identifier. Au fil du temps, les performances des IA se sont progressivement améliorées sur ces tests. Mais cette dynamique pourrait atteindre ses limites.

Et votre vie numérique devient sereine

Bitdefender Premium Security est une solution de cybersécurité européenne qui vous protège automatiquement contre les pirates et toutes les menaces du web. Profitez de vos activités en ligne en toute tranquillité

Sur ARC-AGI-2, Gemini 3.1 Pro affiche 77,1 %. // Source : Google

ARC-AGI-3 : toutes les IA échouent

ARC‑AGI est porté par le chercheur français François Chollet, créateur de la librairie de deep learning Keras et figure influente de l’IA chez Google. Pour inciter la communauté à s’y attaquer, la fondation ARC a lancé un programme de compétitions, l’ARC Prize 2026, doté de 2 millions de dollars, répartis entre plusieurs compétitions liées à ces benchmarks. Les équipes candidates doivent publier leurs solutions en open source, une contrainte assumée par les organisateurs pour que les progrès réalisés sur ARC‑AGI bénéficient à l’ensemble de la communauté, plutôt qu’à un seul laboratoire.

Ainsi, le 27 mars 2026, une nouvelle version, ARC-AGI-3, a été rendue publique. Elle introduit un changement de paradigme : au lieu de puzzles statiques, les modèles sont confrontés à des environnements interactifs dans lesquels ils doivent agir étape par étape, sans instructions explicites. Avec cette mouture, ARC bascule clairement vers des scénarios d’IA agentique : les systèmes doivent explorer, inférer des objectifs implicites, se construire une représentation de l’environnement, puis planifier leurs actions pour réussir chaque tâche.

ARC-AGI-3 // Source : Capture d'écran Numerama — ARC-AGI-3 // Source : Capture d’écran Numerama

Le benchmark est calibré pour que 100 % des environnements soient solvables par des humains, et des volontaires non entraînés y parviennent effectivement. À l’inverse, les systèmes d’IA de pointe restent aujourd’hui sous 1 % de réussite : Gemini 3.1 Pro atteint 0,37 %, GPT-5.4 0,26 %, Claude Opus 4.6 0,25 % et Grok-4.20 ferme la marche avec 0 %.

Bientôt l’IAG ?

Concrètement, ARC-AGI-3 se présente comme une collection de mini-« jeux » abstraits, joués au tour par tour : à chaque étape, l’agent observe l’état de l’environnement, choisit une action, puis voit le résultat avant de décider du coup suivant. L’ensemble est conçu pour ne pas reposer sur des connaissances du monde ou du langage, mais sur des capacités de raisonnement de base : détecter des régularités, manipuler des objets, anticiper les conséquences de ses actions. C’est précisément ce décalage — réussir rapidement face à une situation nouvelle, là où l’humain s’adapte en quelques essais — qui vaut à ARC-AGI-3 d’être décrit comme un véritable « test d’humanité ».

Gemini 3.1 Pro atteint 0,37 %, GPT-5.4 0,26 %, Claude Opus 4.6 0,25 % et Grok-4.20 0 %. // Source : Arxiv

Pour l’équipe ARC, ce benchmark vise explicitement le terrain de l’« AGI », mais avec une définition précise : ils ne voient pas l’intelligence générale comme une liste de capacités spectaculaires, mais comme la capacité d’un système à acquérir n’importe quelle compétence humaine avec la même efficacité qu’un humain. Autrement dit, l’intelligence n’est pas la somme des compétences, mais la vitesse et l’économie avec lesquelles on apprend de nouvelles compétences. ARC-AGI-3 sert ainsi de thermomètre de l’écart qui reste avec ce niveau humain, en comparant, environnement par environnement, à quelle vitesse les modèles apprennent à maîtriser des situations entièrement nouvelles.

Dans ce cadre, l’intelligence est mesurée par une métrique d’« efficacité d’action », qui compare le nombre de tours nécessaires à l’IA et à un humain pour résoudre un environnement inédit : il ne suffit pas de finir un niveau, il faut le faire en un nombre d’actions comparable à celui d’un humain. Sur ce terrain très concret — réussir des petits jeux inconnus aussi vite qu’un humain — toutes les IA vedettes s’effondrent encore. Mais ce n’est peut-être qu’une question de temps.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Un édito exclusif, un guide, une reco de lecture et l’agenda de la rédaction : c’est ce que vous trouverez tous les jeudis dans ToujoursPlus, la newsletter tech écrite par Julien Cadot. Inscrivez-vous gratuitement ici !