La robotique, ou de façon plus générale l’art de construire des automates, bercent nos imaginaires collectifs depuis plusieurs siècles déjà, de Talos, le géant de bronze des mythes antiques, au petit robot Astro d’Osamu Tezuka dont les aventures furent publiées de 1952 à 1968, en passant par le flûteur de Vaucanson construit au XVIIIe siècle, capable de jouer plusieurs airs différents sur une flûte traversière.
Les robots modernes, tels que nous pouvons en trouver dans les usines, sont en comparaison très récents puisque le premier d’entre eux, Unimate, n’a commencé à travailler qu’au début des années 60 sur les chaînes d’assemblage de General Motors. Et ce n’est en 1972 qu’est « né » WABOT-1, le premier robot anthropomorphe capable de marcher sur deux jambes, de percevoir son environnement à travers ses senseurs visuels et de transporter des objets dans ses mains.
Au-delà de l’intérêt scientifique du problème de la marche, le développement de la robotique à pattes est motivé par plusieurs applications prometteuses : le vieillissement de la population dans les pays aisés nourrit par exemple l’idée d’une aide médicale robotisée à domicile ; certaines tâches industrielles pénibles ou dangereuses pourraient être allouées à des robots marcheurs, plus versatiles et plus autonomes ; enfin, le secours de personnes en zone sinistrée pourrait être facilité par l’intervention de bipèdes agiles.
En effet, pour évoluer dans des environnements conçus pour les humains (avec des portes, des escaliers, des rambardes…), ces robots auraient tout intérêt à marcher comme nous.
Mais malgré les récents progrès de l’ingénierie, les robots marcheurs sont toujours rares – ce qui est étonnant, en particulier si l’on considère les progrès époustouflants dans des domaines adjacents, sur les capacités de maîtrise du langage des intelligences artificielles par exemple. Alors, pourquoi est-il si difficile d’apprendre à marcher à un robot ?
Marcher sur 2 pieds : instinctif, mais complexe mathématiquement
Chez les êtres humains en bonne santé, marcher est un processus naturel auquel nous ne prêtons guère attention au quotidien. Les premiers pas d’un nouveau-né se font en général entre 10 et 18 mois, bien avant qu’il ne soit capable d’appréhender la mécanique sous-jacente de son déplacement. La capacité à se mouvoir sur deux pattes est une compétence que nous apprenons presque seul, en imitant notre entourage et en procédant par essai et erreur. Pour les animaux, les choses paraissent encore plus simples, puisque la majorité des quadrupèdes sont capables de marcher, sauter ou courir quelques heures seulement après leur naissance.
Cependant, la locomotion humaine est un problème extrêmement compliqué d’un point de vue mathématique, qui implique le contrôle en temps réel d’environ 360 articulations et 640 muscles, tout en tenant compte du centre de gravité, de l’équilibre, des appuis, de la vision…
En définitive, si la robotique à pattes donne de très bons résultats en laboratoire, là où les chercheurs peuvent contrôler précisément l’environnement expérimental, elle n’est pas encore assez robuste pour affronter le désordre et l’imprédictibilité du monde réel.
Les premiers résultats probants sur la locomotion bipède des robots ont été obtenus en décomposant le problème : planification d’une part et contrôle d’autre part.
Dans un premier temps, on calcule la trajectoire à exécuter en se basant sur des techniques d’optimisation qui vont minimiser un coût (par exemple, un temps de trajet d’un point A à un point B) sous certaines contraintes (par exemple, ne pas tomber). Dans un second temps, on exécute cette trajectoire et on s’assure que le robot la suit même en cas de perturbations extérieures ou d’erreurs.
En effet, à ses débuts, la robotique ne disposait pas d’ordinateurs assez puissants pour faire de la planification complète en temps réel, comme les humains. Pour générer certains mouvements complexes, les algorithmes d’optimisation pouvaient prendre plusieurs secondes, voire plusieurs minutes, et il fallait planifier l’intégralité du mouvement à l’avance.
La méthode du « contrôle prédictif » pour prévoir les mouvements du robot
L’inconvénient de cette approche est qu’elle ne permet pas au robot de modifier son comportement en cas de transformation soudaine de l’environnement (par exemple un humain qui passe devant lui, un objet qui tombe sur le chemin…) : le système essayera de suivre la trajectoire calculée quoiqu’il arrive.
On sait maintenant que les humains au contraire ne prennent en compte que leurs deux ou trois prochains pas quand ils évaluent leur trajectoire (soit une à deux secondes d’anticipation).
Les roboticiens ont donc simplifié le problème de planification, en ne regardant que des horizons temporels très proches, de façon à pouvoir le résoudre très rapidement. Cette méthode, baptisée « contrôle prédictif », consiste à calculer une trajectoire désirée pour le robot, dont seul le premier point sera utilisé, par exemple un pas. Une fois ce point réalisé, on recalcule la nouvelle trajectoire souhaitée en prenant en compte les nouvelles informations dont dispose le robot : vision, senseurs internes, consignes de l’utilisateur, et qui pourraient indiquer l’apparition d’un obstacle par exemple.
Au cours des dernières décennies, la puissance de calcul des ordinateurs a grandement augmenté, rendant possible l’implémentation de modèles plus complexes. On peut aujourd’hui prendre en compte la dynamique complète du corps du robot à l’intérieur de l’horizon de prédiction. Les méthodes de contrôle prédictif sont notamment à l’origine des impressionnantes acrobaties du robot Atlas de Boston Dynamics.
L’« apprentissage par renforcement » pour favoriser la marche : c’est quoi ?
Malgré ses avantages, le contrôle prédictif reste limité par les contraintes temps réel de la locomotion, et par la taille importante du problème à résoudre.
Ainsi, les roboticiens s’intéressent depuis peu à l’« apprentissage par renforcement » et à son application pour le contrôle de la marche. L’idée consiste à fixer une fonction de récompense pertinente (par exemple, atteindre un objet derrière une porte fermée) et à laisser le robot se mouvoir sur simulateur jusqu’à ce qu’il parvienne, par essai et erreur, à trouver le comportement qui maximise sa récompense.
L’approche s’inspire largement de la façon dont les enfants apprennent à se mouvoir, d’abord par gestes hasardeux, puis de plus en plus précis, jusqu’à devenir naturels et sans effort. Malgré tout, l’apprentissage par renforcement demeure une technique coûteuse en termes de temps d’entraînement sur machine, et ses résultats sont parfois difficilement transposables à la réalité. C’est ce qu’illustre la démarche très instable calculée par l’IA DeepMind de Google, qui a appris à marcher par elle-même : la solution obtenue fonctionne bien en simulation mais échouerait très certainement si elle était implémentée sur un véritable robot.
D’autres travaux suggèrent de combiner contrôle prédictif et apprentissage par renforcement : l’idée est de construire hors ligne une mémoire du mouvement dans laquelle le contrôleur pourrait piocher pour accélérer sa convergence lorsqu’il rencontre une situation nécessitant une réaction vive et complexe, comme un pas sur le côté pour éviter de percuter une voiture. Dans ce contexte, le contrôle prédictif sert à adapter aux conditions présentes un mouvement déjà connu et acquis, qu’on n’a alors plus besoin de réinventer à partir de zéro.
Cette dialectique entre adaptation et mémoire rappelle beaucoup le fonctionnement de l’humain, qui prend d’autant moins de temps à accomplir une tâche qu’il a répété de nombreuses fois par le passé.
Ewen Dantec, Doctorant en robotique au Laboratoire d’analyse et d’architecture des systèmes, INSA Toulouse
Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Abonnez-vous à Numerama sur Google News pour ne manquer aucune info !