La filiale d'Alphabet spécialisée dans l'intelligence artificielle travaille sur les déplacements et notamment sur le fait d'éviter les obstacles. L'objectif est d'être capable pour un robot d'appréhender la situation en complète autonomie.

Depuis plusieurs années, Deepmind utilise la technique du  « Reinforcement Learning  », ou apprentissage par renforcement pour ses robots, qui a pour but de faire apprendre un comportement en utilisant un système de récompenses ou, au contraire, de punitions.

C’est la méthode que l’entreprise utilise pour apprendre à ses robots comment se déplacer dans un parcours semé d’obstacles. Selon la rapidité avec laquelle le robot conclut le parcours, il reçoit ou non une récompense. De même, plus le parcours est complexe, plus la récompense est grande.

Schéma du fonctionnement de l’apprentissage par renforcement

Comment est-ce que cela fonctionne concrètement ? Le robot est équipé d’une série de capteurs visuels qui lui permettent de comprendre et d’analyser ses environs. De plus, le logiciel est programmé pour toujours aller de l’avant. À partir de là, le robot fait le reste : il doit trouver comment avancer, comment passer outre les obstacles.

Si ce n’est pas la première fois que l’apprentissage par renforcement est utilisé pour les robots, le fait que le logiciel évolue devant chaque obstacle rencontré et développe de nouvelles manières de se déplacer est inédit. Cette technique ne fonctionnait jusque-là que dans l’environnement habituel du robot.

Partager sur les réseaux sociaux