On connaissait les TwitchPlaysPokémon et autres variantes où une communauté essaie de jouer ensemble à un jeu vidéo. Il y a aussi les AIplaysMario, avec des systèmes d’intelligence artificielle qui tentent de jouer. Dans le genre, une expérimentation récente a permis de jauger plusieurs modèles de langage sur Super Mario Bros.

Les compétitions de jeux vidéo sont un bon moyen de départager le niveau des uns et des autres. Peut-on faire de même avec l’intelligence artificielle (IA) ? C’est en tout cas ce que cherche à faire Hao AI Lab, une structure attachée à l’université de Californie à San Diego. Depuis la fin février, elle challenge les grands modèles de langage sur… Super Mario.

Un tweet d’Hao AI Lab, paru le 2 mars, donnait la couleur : « De nouveaux résultats viennent de tomber ! Nous avons intégré GPT-4.5 et Gemini-2.0-flash dans nos agents de jeu. […]. GPT-4.5 est en difficulté en raison d’une latence élevée, Gemini-2.0-flash est nettement plus performant que Gemini-1.5-pro, à égalité avec Claude-3.5. »

Duel d’IA. // Source : Capture d’écran

Pour qui suit de près l’actualité de l’IA générative (ou GenAI), ces noms sont forcément familiers : ils désignent des modèles de langage développés par des sociétés comme Google (Gemini), OpenAI (GPT) ou Anthropic (Claude). Ce sont eux qui font fonctionner les chatbots, comme ChatGPT, en suivant des règles mathématiques pour comprendre le langage.

Les versions présentées ici figurent parmi les plus avancées du marché à ce jour. GPT-4.5, par exemple, est tout récent, puisqu’il est sorti le 27 février. De son côté, Gemini-2.0 n’est guère plus vieux, avec un lancement le 6 février. Quant à Claude-3.5, il est opérationnel depuis octobre 2024 (il y a eu depuis la sortie de Claude-3.7 fin février).

« Votre objectif est d’éviter les obstacles, les ennemis et les dangers »

Il semble étonnant d’utiliser des modèles spécialisés dans le traitement du langage dans le cadre d’un jeu vidéo, en raison des différences apparentes entre ces deux « mondes » (du texte découpé en tokens pour le premier et du contenu interactif et visuel pour le second). Mais l’équipe d’Hao AI Lab a conçu une méthode pour brancher les modèles sur le jeu.

On découvre notamment des instructions générales données à l’IA (« Vous êtes un agent intelligent de Super Mario qui contrôle Mario, recherche et exécute le chemin optimal en fonction de l’état du jeu. Privilégiez la survie à la vitesse ») ainsi que des consignes à suivre. Par exemple, ces instructions qui donnent les grands comportements à adopter.

« La position de Mario a probablement été déplacée vers l’avant lorsque le code généré doit être exécuté. »

« Votre objectif est d’éviter les obstacles, les ennemis et les dangers. »

« Lorsqu’un vide est détecté, ÉVITEZ de sauter par-dessus le vide. Ne faites que de petits ajustements de position pour préparer le grand saut. »

« Appuyez sur la flèche droite pour avancer. »

« Appuyez sur Enter pour démarrer le jeu uniquement si le jeu n’a pas commencé. Sinon, le jeu sera mis en pause. »

« Appuyez sur ‘X’ ainsi que sur la flèche droite/gauche pour sauter par-dessus les obstacles ou les trous. Soyez très prudent avec les espaces, faites des sauts en boucle si nécessaire. »

« Si un obstacle ou un ennemi est proche, bougez/sautez à gauche pour esquiver. »

« Si un ennemi est détecté, faites un grand saut seulement si vous êtes très confiant, sinon faites des petits sauts consécutifs. »

« En cas de doute, adoptez une approche plus défensive en vous déplaçant vers la gauche (reculez). »

« Dormez et ne faites rien si aucun ennemi n’est détecté. »

Comme le pointe Techcrunch, il ne s’agit pas d’une copie classique de Super Mario Bros, jeu mythique de la Nintendo NES sorti en 1985. On parle ici d’un jeu exécuté via émulateur qui s’intégrait dans un framework spécifique, appelé GamingAging. Des instructions sont passées pour que Mario puisse être contrôlé par les systèmes d’IA.

Super Mario, déjà un terrain d’entraînement de l’IA depuis longtemps

L’expérimentation d’Hao AI Lab n’est pas fondamentalement inédite. On se souvient par exemple des travaux d’un informaticien qui avait conçu une IA capable de jouer à des jeux NES, dont Super Mario Bros. Son apprentissage se fondait sur l’analyse de la mémoire stockée dans la console. C’était en 2013, il y a donc une éternité.

Deux ans plus tard, des universitaires s’étaient illustrés par une IA générant des niveaux pour Super Mario Bros, que l’on pouvait parcourir en tant que joueur. C’est la même idée reproduite dix ans plus tard avec MarioGPT, mais en profitant des progrès accomplis en GenAI. On écrit des prompts, puis le système développe les niveaux demandés.

Encore plus récemment, il y a eu l’initiative conduite par Anthropic depuis juin 2024. L’idée générale ? Un chatbot basé sur l’IA générative jouant à Pokémon. Le projet a démarré avec Claude 3.5 avant de passer sur la mouture la plus récente (Claude 3.7), et mettre à l’épreuve sa capacité de « réflexion », la nouvelle tendance dans l’IA générative.

Selon Hao AI Lab, ses expérimentations mobilisent, outre les modèles mentionnés précédemment, Claude 3.7, Gemini-1.5-pro et plusieurs séries de la famille ChatGPT (GPT-4o, GPT-4o-mini et o1). Tous ces modèles sont plutôt récents, y compris les plus « anciens » de la liste, avec des sorties qui se sont étalées entre 2024 et 2025.

La vitesse de travail est la clé

Ce petit test semble montrer de meilleurs résultats pour les systèmes d’IA qui sont plus rapides à traiter l’information. Les modèles de « raisonnement », qui prennent un peu plus de temps pour travailler, ont plus de mal à jouer à des jeux en temps réel. Or, de bonnes performances nécessitent de réagir souvent rapidement.

Cette relative lenteur que l’on observe dans les modèles de « raisonnement » se traduit souvent en une poignée de secondes d’attente. Une latence qui se paie parfois cher dans un jeu de plateforme comme Super Mario Bros, en particulier lorsqu’il faut enchaîner plusieurs mouvements rapides à la suite, pour passer des obstacles et esquiver et tuer des ennemis.

Les modèles Gemini 2.0 semblent plutôt bien s’en sortir dans cet exercice. // Source : Google

À l’inverse, les systèmes véloces apparaissent privilégiés. Ce que n’a pas manqué de souligner Philipp Schmid, un informaticien chez DeepMind, l’une des filiales de Google dédiées à l’IA. « Gemini 2.0 Flash peut jouer à Super Mario en temps réel grâce à sa latence rapide », s’est-il félicité. L’occasion, aussi, de prêcher pour sa paroisse.

La pertinence d’utiliser les jeux vidéo pour évaluer les IA, notamment les unes par rapport aux autres, est toutefois débattue et parfois contestée. Une défiance qui s’étend aussi aux autres manières plus classiques d’évaluer les IA. Il existe beaucoup de métriques et les sociétés du secteur n’utilisent pas les mêmes pour s’évaluer et se comparer.

Il n’en demeure pas moins que l’évaluation par le jeu vidéo a le mérite d’être très visuel et d’attirer aisément l’attention — on s’en souvient notamment au moment où DeepMind a entraîné l’IA AlphaStar pour battre des joueurs pros sur StarCraft II. C’est aussi une manière de rejouer l’affrontement, toujours un peu fantasmé, de l’homme contre la machine.

