Comment enseigner à un robot à repasser ou sortir les poubelles ? Mettez une caméra sur la tête

Résumé par IA, vérifié par Numerama

Figure lance « Go‑Big », un programme visant à constituer le plus grand ensemble de données de pré‑entraînement pour robots humanoïdes.
Les vidéos seront captées en vue subjective pour rapprocher l’apprentissage de la perception réelle d’un robot.
Un partenariat avec Brookfield offre l’accès à plus de 100 000 logements pour alimenter ce corpus.

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Que faire quand il n’existe pas un « YouTube pour les robots » sur lequel s’appuyer pour entraîner des robots ? Il faut en construire un. C’est l’approche suivie par la société de robotique Figure, qui va utiliser des caméras en vue subjective (POV).

Pour alimenter les grands modèles de langage, qui permettent de faire tourner les chatbots comme ChatGPT, Gemini ou Claude, les entreprises s’alimentent à partir de vastes corpus de texte qu’elles trouvent en ligne : Reddit, Wikipédia, des contenus libres de droits… et parfois protégés par le droit d’auteur, sans le dire vraiment — ce qui cause des tensions avec les ayants droit.

Avec l’appui d’algorithmes de plus en plus efficaces, cette recette a servi à améliorer la qualité des réponses fournies par les chatbots. Mais pourrait-on dupliquer cette approche pour entraîner un système sur une tâche précise, comme sortir les poubelles ou faire le ménage ? Cette approche semble être une impasse, aux yeux de l’entreprise de robotique Figure.

Figure Helix — L’entrainement suivi par Figure pour ses robots consiste à capturer la gestuelle et le mouvement des humains pour les transposer aux machines. // Source : Figure

Projet « devenir énorme » dans la robotique

À la place, Figure a annoncé un projet baptisé Go-Big. « Nous construisons le plus grand ensemble de données de pré-entraînement humanoïde au monde. Ce projet est accéléré par notre partenariat avec Brookfield, qui possède plus de 100 000 logements résidentiels », a fait savoir la société sur X (ex-Twitter) le 18 septembre 2025.

Anker Batterie Box Partenaire Num Décembre

Le cadeau parfait est en promo !

C’est bientôt Noël ! Anker baisse le prix de sa batterie de 25 000 mAh. Avec ses 2 câbles intégrés et sa puissance totale de 165 watts, elle peut recharger presque tous vos appareils, où que vous soyez.

Ce travail vidéo ne s’arrêtera pas aux appartements et aux maisons. Brookfield apporte aussi à Figure des accès privilégiés à des bureaux et des entrepôts. C’est essentiel pour diversifier les environnements d’apprentissage et ainsi explorer d’autres activités sur lesquelles les robots pourraient servir — pour de la manutention et de la logistique, par exemple.

Go-Big part d’un constat : « Chaque avancée majeure dans le domaine de l’apprentissage automatique [un domaine de l’intelligence artificielle, NLDR] est le fruit de l’exploitation de jeux de données volumineux et variés ». Or, à ce jour, « il n’existe rien de tel dans le domaine de la robotique, c’est pourquoi nous développons notre propre solution. »

Sur le net, on peut certes tomber sur des vidéos montrant l’exécution de gestes qui intéresseraient Figure pour entraîner ses robots humanoïdes, sur le ménage ou sur toute autre besogne. Peut-être même certaines de ces vidéos sont tournées en vue subjective, ce qui est encore mieux pour affiner le modèle vision-langage utilisé par Figure. Un exemple :

Filmer des activités manuelles en POV

Un modèle vision-langage pour un robot est une IA capable de comprendre et relier des images (vision) et des mots (langage), afin que le robot puisse décrire ce qu’il voit, comprendre des instructions visuelles et verbales, et agir en conséquence.

Le problème, outre les questions de droit d’auteur, c’est que le stock de vidéos disponibles n’est vraisemblablement pas assez étoffé pour ne miser que là-dessus. D’où le projet Go-Big qui vise donc à bâtir et nourrir le « plus grand ensemble de données de pré-entraînement au monde », en prenant des séquences subjectives de gens, via des caméras.

Le pré-entraînement va permettre d’exposer un modèle d’IA à un immense corpus de données génériques pour qu’il développe des compétences de base, avant de l’adapter ensuite à des tâches plus spécifiques. En somme, c’est une formation initiale sur des données générales. Et la vue subjective va apporter une aide substantielle.

En effet, cette captation en « POV », c’est-à-dire à la première personne, où la caméra est portée sur la tête, sert à constituer un stock d’enregistrements se rapprochant fortement de la perception visuelle qu’aurait un robot humanoïde. Selon Figure, la collecte de données est d’ores et déjà en cours et devrait monter en puissance dans les mois à venir.

Cette vaste base de données de référence, taillée pour les robots domestiques, pourrait par la suite servir d’accélérateur à l’IA, de la même manière que des ensembles de données massifs et diversifiés comme Wikipédia (pour le langage), YouTube (la vidéo) ou ImageNet (la vision par ordinateur) ont été très utiles à l’écosystème.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Pour ne rien manquer de l’actualité, suivez Numerama sur Google !