En quelques heures, le système d'intelligence artificielle de DeepMind, une filiale de Google, a appris comment jouer aux échecs. Au passage, il en a profité pour devenir un champion et battre l'un des meilleurs programmes d'échecs existants.

Imbattable au jeu de go, le système conçu par DeepMind, la filiale de Google dédiée à l’intelligence artificielle, l’est aussi aux échecs. En tout cas, il a su démontrer à tous son excellent niveau de jeu lors d’une série de parties organisées contre Stockfish, un programme d’échecs open source considéré comme « le plus puissant au monde » dans sa catégorie.

Sur le site spécialisé chess.com, un intervenant explique qu’une version générique du système d’IA a fait une série de cent matchs contre Stockfish et en a remporté à 28 reprises. Est-ce à dire qu’elle a perdu contre toutes les autres ? Non : le programme de DeepMind, basé sur AlphaGo Zero, n’a perdu aucune manche, les autres s’étant terminées sur une égalité.

28 victoires, 0 défaite pour AlphaZero

Des matchs nuls que l’équipe en charge du projet ne voient pas du tout comme un revers : « les échecs peuvent donner lieu à des nuls en plus des victoires et des défaites ; en effet, on pense que la solution optimale aux échecs est un nul », écrivent les membres de DeepMind dans un papier de recherche publié sur arXiv. Et c’est d’autant plus remarquable que le logiciel est parti de rien.

La particularité d’AlphaZero est de se passer d’apprentissage supervisé pour progresser. La seule information dont le système a bénéficié au départ était le livre de règles du jeu d’échecs afin de savoir comment déplacer correctement les pièces sur l’échiquier. C’est tout. Ensuite, il a progressé seul, sans l’aide de personne et surtout sans avoir vu préalablement des parties jouées par des humains.

CC George Becker

Comment ?

En se défiant constamment pour atteindre un niveau de champion. « Partant d’un jeu aléatoire et n’ayant aucune connaissance à part les règles du jeu, AlphaZero a atteint en 24 heures un niveau de jeu surhumain dans les parties d’échecs et a battu de manière convaincante un programme de classe mondiale ». C’est le principe de l’apprentissage par renforcement.

Selon DeepMind, il a fallu 9 heures d’entraînement et 44 millions de parties pour maîtriser les échecs avec un algorithme d’apprentissage de renforcement général, avec à chaque fois un temps de réflexion très court : 40 millisecondes. Ensuite, il n’a fallu que 4 heures au système d’IA pour surclasser Stockfish. L’équipe précise qu’une minute de calculs par mouvement était accordée à chaque programme.

« AlphaZero a atteint en 24 heures un niveau de jeu surhumain dans les parties d’échecs »

Le fait que le meilleur moteur d’échecs soit écrasé par le programme développé par les spécialistes de DeepMind n’est sans doute pas étonnant. Après tout, la société est soutenue par Google, l’une des entreprises qui investit le plus dans la recherche en IA et qui multiplie les initiatives dans ce domaine scientifique, via TensorFlow par exemple, son outil d’apprentissage automatique.

En outre, les échecs sont un peu plus « simples » à maîtriser que le go. Le nombre de coups possibles aux échecs n’est en effet « que » de 10120 là où le vénérable jeu de plateau chinois en compte 10170. Certes, cela constitue toujours un nombre énorme de mouvements à explorer, mais l’anticipation des coups gagnants est une tâche (un peu) moins compliquée dans ce cas de figure.

alphago-ke-jie
Au jeu de go, le système d’IA avait déjà montré un niveau incroyable.
Crédits : Google

Économie de réflexion

Point intéressant, AlphaZero n’avait pas besoin à chaque fois d’explorer une quantité très importante de coups.

« AlphaZero recherche seulement 80 000 positions par seconde aux échecs contre 70 millions pour Stockfish. AlphaZero compense ce faible nombre en utilisant son réseau de neurones profonds pour se concentrer beaucoup plus sélectivement sur les variations les plus prometteuses – sans doute une approche de recherche plus ‘humaine’ », lit-on dans le papier de recherche

carlsen_magnus
Et si Magnus Carlsen relevait le défi ?
CC Andreas Kontokanis

Chez les passionnés, la nouvelle a été accueillie diversement. Outre les commentaires élogieux, certains internautes ont fait preuve de nuance.

C’est le cas d’Elroch, qui écrit « qu’il est important de faire attention à l’évaluation du résultat. Différents matériels ont été utilisés », ajoutant « qu’il est aussi intéressant de noter qu’asmFish (dérivé de Stockfish) est actuellement le moteur le mieux coté. L’équipe AlphaZero ne l’a pas utilisée — elle a utilisé la version championne de 2016 ». En clair, il y aurait un adversaire encore meilleur.

Évidemment, maintenant que l’un des meilleurs moteurs d’échecs a été malmené par le champion de DeepMind, on se prête à rêver d’un remake de l’affrontement devenu mythique entre Gary Kasparov et Deep Blue, où le champion russe a été défait en 1997 par la machine fabriquée par IBM. Et cela, même si l’on peut supposer qu’AlphaZero ne sera pas inquiété.

Après tout, ce ne sont pas les champions qui manquent. On pense évidemment à Magnus Carlsen, un joueur norvégien actuellement considéré comme le meilleur joueur d’échecs au monde mais aussi au Français Maxime Vachier-Lagrave qui est aussi un habitué du top 5 du classement international Elo, un système qui permet d’évaluer le niveau des joueurs.

Partager sur les réseaux sociaux