C'est une première : un système d'intelligence artificielle a réussi à battre deux joueurs professionnels à StarCraft 2.

Dix victoires et une défaite pour AlphaStar. Voilà donc le bilan de la série de matchs que Blizzard et DeepMind ont organisés pour tester l’efficacité de l’intelligence artificielle de la filiale de Google face à des joueurs professionnels de StarCraft 2 — en l’occurrence, deux membres de l’équipe Team Liquid, à savoir l’Allemand Dario « TLO » Wünsch et le Polonais Grzegorz « MaNa » Komincz.

Un résultat d’autant plus  spectaculaire lorsque l’on sait la difficulté qu’il y a à créer une IA efficace dans un environnement aussi complexe et dans un temps aussi bref : le partenariat entre Blizzard et DeepMind est en effet relativement récent puisqu’il a été annoncé fin 2016. Il n’aura fallu donc « que » deux ans de ans de développement pour hisser un tel système au niveau des meilleurs joueurs du monde.

Ce sont ces progrès que les deux entreprises ont voulu montrer jeudi 24 janvier, lors d’une retransmission spéciale.

Match contre TLO
Match contre TLO.

Deux joueurs professionnels balayés

Elles ont révélé que deux matchs secrets ont eu lieu au cours du mois de décembre. La première rencontre opposait TLO à AlphaStar le 12 décembre. Elle s’est achevée sur le score sans appel de 5 à 0 en faveur de l’algorithme. La seconde, organisée une semaine plus tard, le 19 décembre, n’a pas permis de bousculer cette domination : MaNa s’est aussi fait balayer.

Autant dire que ça s’engageait mal pour les deux représentants de l’humanité.

Pour un œil un peu exercé, AlphaStar était tout à fait redoutable : il suivait des ordres de construction différents à chaque partie, dont certains ont même décontenancé les deux joueurs professionnels, il était capable de bloquer les entrées de sa base avec ses bâtiments, de partir en reconnaissance chez l’ennemi, de diviser ses troupes pendant un combat, de lancer sa deuxième puis troisième base.

AlphaStar micro-gestion
La microgestion d’AlphaStar (en bleu) était spectaculaire.

Mais surtout, c’est la micro-gestion, c’est-à-dire le contrôle des unités pendant un combat, qui a fait sensation. Par exemple, AlphaStar était capable de rappeler très vite en arrière les unités qui étaient en première ligne, pour les protéger, lorsqu’elles prenaient trop de dégâts. De cette façon, la ligne de front était renouvelée au fur et à mesure et il était très dur pour le joueur adverse de prendre des kills.

«  Il n’y a aucun joueur au monde qui peut contrôler ces unités d’une telle façon, avec ce genre de précision », a lâché l’un des commentateurs, pourtant habitué à des matchs de très haut niveau. « La micro-gestion est fantastique ». Et tout ça, alors que les statistiques de jeu d’AlphaStar (récolte de minéraux et de gaz, nombre d’ouvriers et de troupes, limite d’unités) étaient proches de celles de ses opposants.

«  Ce n’était pas humain », a ajouté l’autre commentateur. « C’était surhumain ». Pour lui, quelqu’un peut peut-être faire une telle micro-gestion, mais c’est au détriment de la macro-gestion (qui consiste à gérer son économie, sa production de troupes et son ordre de construction). AlphaStar arrivait à faire les deux. Un joueur, lui, perdrait du temps en passant de l’une à l’autre.

MaNa a lui aussi admis que c’était exceptionnel : « la façon dont AlphaStar a fait sa micro-gestion était incroyable ». En outre, l’IA «  tradait très bien », c’est-à-dire qu’elle savait quand ça valait le coup de sacrifier ses unités pour prendre des bâtiments adverses ou réduire le nombre de troupes ennemies. Et surtout, AlphaStar n’avait pas un même plan de jeu ; à chaque fois, il proposait autre chose.

L’honneur est sauf

Mais lors du match d’exhibition organisé en direct jeudi soir, MaNa a sauvé l’honneur en réussissant à vaincre AlphaStar. Score final : 10-1. Qu’est-ce qui a changé entre les parties de décembre et celle de janvier ?

La Victoire de MaNa. GG WP.

Lors d’un débriefing avec les commentateurs — Dan « Artosis » Stemkoski et Kevin « RotterdaM » van der Kooi —  et les deux responsables d’AlphaStar — David Silver et Oriol Vinyals  –, le joueur polonais a expliqué qu’il a effectué une bien meilleure prise  d’information, afin de mieux réagir en fonction des choix adverses. C’est avant tout ce point qui lui a donné la victoire, a-t-il jugé.

«  Lors des précédentes parties, j’étais dans le noir. Je ne savais pas ce qui se passait. Le manque d’information m’a coûté de l’économie, j’avais une armée moins grande et je pouvais donc faire moins de choses. »

Contrairement aux échecs ou go, StarCraft 2 ne permet pas de voir d’un coup et en permanence tout ce qui se passe en jeu. L’information est incomplète. Cela veut dire que les actions adverses ne sont pas accessibles — c’est ce qu’on appelle le brouillard de guerre. Pour voir une zone de la carte, il faut avoir une unité dans les parages et l’y maintenir, sinon la zone redevient masquée. Or, il y a peut-être à ce moment-là un regroupement ennemi.

Brouillard de guerre
Le brouillard de guerre est représenté sous une forme de zone grisée tout autour de l’action.

Mais du côté d’AlphaStar, il y a aussi eu du changement. Lors du direct, les équipes de DeepMind ont opté pour une version de l’algorithme qui ne pouvait prendre ses décisions qu’en fonction de ce qu’il voyait sur l’écran, en fonction de la position de la caméra du jeu. Impossible, par exemple, de gérer un évènement à l’autre bout de la carte sans l’afficher effectivement à l’écran.

De cette façon, AlphaStar s’est approché davantage d’un « jeu humain ». Bien entendu, il y avait d’autres restrictions pendant ces parties. Par exemple, impossible pour AlphaStar d’avoir des actions par minute (APM) trop élevées. Il fallait que l’affrontement soit censé et équitable D’ailleurs, selon les graphiques partagés par DeepMind, la moyenne des APM d’AlphaStar est plus basse qu’un joueur professionnel.

APM AlphaStar
Les APM d’AlphaStar étaient moins élevés en moyenne.

Pour DeepMind, la courbe d’APM d’AlphaStar par rapport à celle d’un joueur pro est aussi un indice montrant que l’algorithme d’intelligence artificielle est en mesure de prendre des décisions aussi bonnes voire supérieures — d’où ses victoires assez larges — tout ayant une certaine économie dans ses efforts. Cela suggère aussi que l’IA fait moins d’actions inutiles lorsqu’elle opère.

Et maintenant ?

Reste à savoir ce que vaut AlphaStar sur les deux autres races du jeu, les Zergs et les Terrans. Les rencontres se sont limitées à celle des Protoss (qui est le choix favori de MaNa, mais pas de TLO, qui est plus à l’aise avec les Zergs). Peut-être cela permettra-t-il de trancher le débat de savoir quelle est la meilleure race ? Mais surtout, ce que l’on attend, c’est de voir des rencontres face à des champions coréens.

Niveau de complexité
StarCraft 2 offre un niveau de complexité très élevé.

Reste une question : à quoi tout ceci sert-il ? Demis Hassabis, le fondateur patron de DeepMind, a souligné que « les techniques derrière AlphaStar pourraient être utiles dans d’autres problèmes tels que les prévisions météorologiques et la modélisation du climat, qui impliquent également des prévisions sur de très longues séquences ». Bref, il ne s’agit pas que de s’amuser.

Ces travaux ont mêlé plusieurs enjeux : théorie des jeux, choix malgré une information incomplète, décision à prendre en temps réel (et non en tour par tour, comme au go ou aux échecs, qui a l’avantage de permettre de marquer des pauses), gestion à plusieurs niveaux (combat et déplacement des unités, gestion de l’économie, récupération des ressources, ordre de construction…), planification à long terme…

D’ailleurs, précise Demis Hassabis, un papier de recherche soumis à comité de relecture est dans les tuyaux.

À lire sur Numerama : Google DeepMind  : les joueurs de StarCraft II se sentent-ils prêts à affronter une IA  ?

Partager sur les réseaux sociaux