Voilà une nouvelle qui sera assurément abondamment commentée lors de la BlizzCon 2019. Juste avant l’ouverture des portes de la convention annuelle de Blizzard, Google a fait publier le 30 octobre dans la très exigeante revue scientifique Nature un article de recherche spectaculaire. Celui-ci explique comment DeepMind, sa filiale en intelligence artificielle, a réussi à battre la quasi-totalité des joueurs de StarCraft 2, y compris la crème de la crème, avec un programme de pointe baptisé AlphaStar.
Si ce nom vous est familier, ce n’est pas un hasard : début 2019, DeepMind a organisé un évènement spécial pour présenter ses progrès en intelligence artificielle sur le jeu vidéo de Blizzard. Ce fut spectaculaire : les deux joueurs professionnels qui avaient été conviés à se mesurer à AlphaStar ont été balayés (10 à 1), cela malgré des limitations techniques pour AlphaStar avant de rendre ses capacités proches de celles d’un excellent humain (pas plus d’un certain nombre d’actions par minute, par exemple).
AlphaStar surclasse 99,8 % des humains
En fait, seule une minuscule élite (0,2 % des joueurs) reste en mesure — mais pour combien de temps ? — de faire face au système en obtenant de meilleurs résultats dans le classement. Tous les autres adversaires, donc 99,8 % de la communauté, ont été dépassés par les performances de ce système lors de duels anonymes organisés via la plateforme Battle.net, qui est le point de rencontre de la communauté pour organiser des matchs et suivre son parcours lors de saisons compétitives.
En l’espèce, ce sont sur les serveurs européens que ces rencontres secrètes ont eu lieu. Il existe trois autres régions compétitives (en Asie, en Chine et en Amériques), mais l’Europe a sans doute été privilégiée parce que DeepMind est basée au Royaume-Uni. Cette ligue réunit pas moins de 90 000 joueurs, mais seule une toute petite poignée d’entre eux, 200, a accès au meilleur niveau. Chaque autre région a aussi ses champions, et les plus hautes places du classement sont aussi réservées aux 200 meilleurs.
Ce faisant, AlphaStar a atteint le niveau de « Grand Maître ». Il s’agit de l’échelon le plus prestigieux sur StarCraft 2 lorsque l’on joue des matchs de classement. Ce rang ne concerne en principe que 0,4 % de la communauté. En dessous, par ordre décroissant, on trouve les grades « Maître », « Diamant », « Platine », « Or », « Argent » et « Bronze ». 75 % de la communauté se répartissent sur les quatre niveaux les plus bas. Les joueurs semi-pros et professionnels démarrent à partir de « Diamant ».
Et ce n’est pas tout : AlphaStar — où plutôt devrait-on dire, AlphaStar Final, qui est le nom de la version qui a été utilisée lors de ces matchs compétitifs sous couverture — a atteint le meilleur niveau sur le jeu avec les trois différentes races de StarCraft 2 : les Terrans, les Zergs et les Protoss. Lors des duels organisés précédemment, AlphaStar ne savait jouer que les Protoss. Or, chacune de ces races possède ses propres caractéristiques et ses propres stratégies de jeu.
« AlphaStar est la première intelligence artificielle à atteindre la meilleure ligue d’un jeu très populaire en esport », se félicite donc DeepMind. Lors des précédentes rencontres contre les deux joueurs professionnels, il y avait eu quelques aménagements. L’un des humains n’avait pas pu choisir sa race fétiche. Par ailleurs, si les deux adversaires de chair et de sang devaient bouger eux-mêmes leur caméra, AlphaStar pouvait voir d’un coup tout le champ de bataille accessible à son point de vue.
DeepMind insiste au passage sur le fait qu’AlphaStar n’a pas bénéficié de traitement de faveur pour affronter ses adversaires. « AlphaStar est aujourd’hui soumis aux mêmes contraintes que les humains, notamment au niveau de la vision de la carte à l’aide d’une caméra et des limitations plus strictes quant à la fréquence de ses actions », écrivent les chercheurs. Ces restrictions ont été définies avec l’aide d’un joueur pro, Dario « TLO » Wünsch, qui avait déjà affronté AlphaStar.
Ainsi, AlphaStar n’a pas le droit de réaliser plus de 22 actions toutes les 5 secondes. Une action correspond à une sélection, une aptitude et une unité ou un point cible, qui compte jusqu’à 3 actions dans le compteur APM (actions par minute) du jeu. Le déplacement de la caméra est également considéré comme une action, même s’il n’est pas comptabilisé dans l’APM. Ces contraintes techniques sont nécessaires pour rendre les affrontements crédibles et instructifs — sinon, quel intérêt ?
Profondeur stratégique et complexité
La réussite d’AlphaStar est d’autant plus spectaculaire lorsque l’on connaît la profondeur stratégique d’un jeu comme StarCraft 2, mais aussi sa complexité : c’est un jeu vidéo en temps réel, où il n’y a aucune pause possible, contrairement, par exemple, à un duel au go ou aux échecs, où l’affrontement se fait chacun son tour — ce qui permet de penser à sa stratégie sans précipitation. Cela requiert donc des actions continues et une adaptation permanente à ce qui se passe.
En outre, le joueur ne voit pas jamais toute la carte d’un coup : sa caméra n’en montre qu’une portion et les zones qui ne sont pas sous son contrôle sont masquées par un « brouillard de guerre ». Pour voir ce qui s’y passe, il est indispensable d’aller les explorer régulièrement, ce qui permet, notamment, de voir où en est l’adversaire à un instant T (que ce soit les déplacements de ses troupes ou bien son développement technologique). Bien sûr, lui fait la même chose.
À cela s’ajoutent les particularités de chaque race, la collecte des ressources (du minerai et du gaz), leur gestion, la construction de la base, la mise en place d’une armée, les choix de l’arbre technologique, la micro-gestion lors des combats (c’est-à-dire l’aptitude à gérer ses unités dans une escarmouche), la prise en compte du volume et de la santé de ses unités, celle de ses bâtiments, et leurs spécificités. Certaines unités sont puissantes face contre des ennemis précis, mais faibles face à d’autres.
Ces précisions montrent à quel point AlphaStar Final est performant. Certes, le système a bénéficié d’un entraînement très poussé. Il a non seulement observé des parties jouées par des humains, pour comprendre comment se joue StarCraft 2, mais il a aussi affronté des versions de lui-même, pour augmenter en permanence son niveau. Plusieurs techniques d’apprentissage automatique — un champ d’étude en intelligence artificielle — ont été utilisées pour muscler AlphaStar.
Selon Oriol Vinyals, membre de l’équipe DeepMind qui a dirigé cette recherche, AlphaStar a d’abord suivi un apprentissage par imitation jusqu’au niveau « Diamant » puis a basculé sur un apprentissage multi-agents jusqu’au niveau « Grand Maître ». AlphaStar, qui repose sur un réseau de neurones artificiels (qui mêle statistiques et fonctionnement s’inspirant des vrais neurones), a aussi misé sur l’apprentissage par renforcement, qui consiste à jouer contre diverses instances de soi-même.
Entraînements virtuels pour applications réelles
Le calendrier de la BlizzCon semble n’avoir prévu aucun évènement particulier autour de la prouesse de DeepMind. En effet, les seules activités recensées dans le programme sont les phases finales des World Championship Series 2019 de StarCraft 2, à partir des quarts de finale. On se souvient qu’à la BlizzCon 2016, Blizzard avait annoncé un partenariat avec la filiale de Google dans le domaine de l’intelligence artificielle. Il ne serait pas surprenant de découvrir des matchs d’exhibition organisés par surprise.
Maintenant que DeepMind a globalement atteint son pari avec StarCraft 2, il reste à savoir quel sera le prochain défi que l’entreprise cherchera à relever. Car l’objectif en dominant le go ou les jeux vidéo n’est pas de s’amuser à vaincre des adversaires humains. Il s’agit avant tout « de développer des agents robustes et flexibles qui peuvent faire face à des domaines complexes et réels », en profitant de terrains de jeux très propices pour la recherche dans l’intelligence artificielle.
« Les jeux comme StarCraft sont un excellent terrain d’entraînement pour faire progresser ces approches, car les joueurs doivent utiliser des informations limitées pour prendre des décisions dynamiques et difficiles qui ont des ramifications sur plusieurs niveaux et échelles de temps ». Or, c’est justement à ces limitations que ces systèmes sont et seront confrontés, qu’il s’agisse de la conduite autonome, de la robotique ou bien de l’analyse médicale. Et ici, ce ne sera plus virtuel.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Si vous avez aimé cet article, vous aimerez les suivants : ne les manquez pas en vous abonnant à Numerama sur Google News.