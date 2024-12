Lecture Zen Résumer l'article

Et si la map de GTA VII était conçu grâce à de l’IA ? Face aux progrès des modèles de génération de modèles 3D, c’est ce qu’on se dit. D’autant plus en regardant ce que permet Genie 2, le tout dernier modèle de Google DeepMind.

Ce mercredi 4 décembre, les équipes de DeepMind ont levé le voile sur Genie 2, un modèle qui permet de générer des mondes virtuels en 3D, taillés pour le jeu vidéo. Des environnements dans lesquels on peut se balader. L’idée, c’est évidemment d’un jour proposer cet outil aux studios de développement de jeux vidéo pour qu’ils puissent concevoir leurs œuvres avec, et pourquoi pas des open worlds immenses. Pratique à laquelle se refuse totalement Nintendo.

De la 2D à la 3D : défi réussi pour Google DeepMind

Dans son article d’annonce de Genie 2, DeepMind rappelle qu’avec son modèle Genie 1, on ne pouvait créer des mondes qu’en deux dimensions. Désormais, Genie 2 est capable de générer des mondes en 3D. Des mondes avec lesquels on peut interagir de manière naturelle : sauter, nager dans l’eau, interagir avec des objets, animer des personnages, etc. Pour former ce modèle, les équipes de DeepMind se sont appuyées sur « un ensemble de données vidéo à grande échelle ».

Une démonstration de Genie 2 // Source : DeepMind

Pour utiliser Genie 2, une requête textuelle peut suffire à décrire le monde qu’on souhaite générer. Dans les exemples publiés par DeepMind, les mondes ont été « créés » à l’aide d’une requête textuelle, qui a ensuite été mise dans Imagen 3 (un générateur d’images de DeepMind) pour générer une image. Image ensuite confiée à Genie 2 pour qu’il puisse faire naître un « nouveau monde » virtuel, ainsi qu’un personnage animé à contrôler.

Les déplacements sont possibles dans Genie 2 // Source : DeepMind

Il y a aussi certains objets avec lesquels on peut interagir : une porte qui s’ouvre, un ballon qui éclate ou encore des explosifs qui… explosent. Même chose pour les PNJ. Quant aux environnements, ils peuvent aussi être animés : la fumée d’une cheminée, la lave d’un volcan, le vent sur les feuilles des arbres, les vagues dans l’eau, etc. Puisque Genie 2 se base sur de la vidéo, il peut réinterpréter tout ce qu’il a ingurgité, les animations et les éclairages (ainsi que les reflets) compris.

Comment fonctionne cette IA qui génère des mondes en 3D

Dans ce monde, on peut interagir durant une minute maximum : en fait, à chaque déplacement ou changement de vue, Genie 2 simule « l’observation suivante », en prenant en compte la trajectoire. Différentes perspectives peuvent être utilisées :

vue à la première personne

vue isométrique

vue à la troisième personne.

Le passage de l’image à l’environnement virtuel // Source : DeepMind

Tout est généré à la volée, ce qui fait que certaines parties du monde sont supprimées à chaque mouvement. DeepMind assure que « Genie 2 est capable de mémoriser des parties du monde qui ne sont plus visibles et de les restituer avec précision lorsqu’elles redeviennent observables. » Pour évaluer les capacités de Genie 2, DeepMind a un autre outil d’IA : SIMA. Il s’agit d’une IA apte à interagir avec des environnements 3D. Les chercheurs lui demandent d’explorer ces derniers pour comprendre s’ils sont cohérents.

Le fonctionnement de Genie 2 // Source : DeepMind

Avant une réelle utilisation dans le milieu du jeu vidéo, DeepMind imagine surtout que son outil facilitera « le prototypage rapide de diverses expériences interactives », ou encore qu’il aidera les chercheurs à « expérimenter rapidement de nouveaux environnements pour former et tester des modèles d’IA incarnés. »

Pour le moment, de grands défis restent à relever. Il y a celui du niveau de finition : la définition et la précision des environnements et personnages n’est pas encore au niveau. De plus, on ne peut « jouer » que pendant une minute. Enfin, DeepMind va devoir travailler sur la fiabilité de son outil d’IA : des entrées ambiguës ou pas assez précises peuvent conduire à des résultats incohérents et donc injouables.

