Pour alimenter les grands modèles de langage, qui permettent de faire tourner les chatbots comme ChatGPT, Gemini ou Claude, les entreprises s’alimentent à partir de vastes corpus de texte qu’elles trouvent en ligne : Reddit, Wikipédia, des contenus libres de droits… et parfois protégés par le droit d’auteur, sans le dire vraiment — ce qui cause des tensions avec les ayants droit.
Avec l’appui d’algorithmes de plus en plus efficaces, cette recette a servi à améliorer la qualité des réponses fournies par les chatbots. Mais pourrait-on dupliquer cette approche pour entraîner un système sur une tâche précise, comme sortir les poubelles ou faire le ménage ? Cette approche semble être une impasse, aux yeux de l’entreprise de robotique Figure.

Projet « devenir énorme » dans la robotique
À la place, Figure a annoncé un projet baptisé Go-Big. « Nous construisons le plus grand ensemble de données de pré-entraînement humanoïde au monde. Ce projet est accéléré par notre partenariat avec Brookfield, qui possède plus de 100 000 logements résidentiels », a fait savoir la société sur X (ex-Twitter) le 18 septembre 2025.


Ce travail vidéo ne s’arrêtera pas aux appartements et aux maisons. Brookfield apporte aussi à Figure des accès privilégiés à des bureaux et des entrepôts. C’est essentiel pour diversifier les environnements d’apprentissage et ainsi explorer d’autres activités sur lesquelles les robots pourraient servir — pour de la manutention et de la logistique, par exemple.
Go-Big part d’un constat : « Chaque avancée majeure dans le domaine de l’apprentissage automatique [un domaine de l’intelligence artificielle, NLDR] est le fruit de l’exploitation de jeux de données volumineux et variés ». Or, à ce jour, « il n’existe rien de tel dans le domaine de la robotique, c’est pourquoi nous développons notre propre solution. »
Sur le net, on peut certes tomber sur des vidéos montrant l’exécution de gestes qui intéresseraient Figure pour entraîner ses robots humanoïdes, sur le ménage ou sur toute autre besogne. Peut-être même certaines de ces vidéos sont tournées en vue subjective, ce qui est encore mieux pour affiner le modèle vision-langage utilisé par Figure. Un exemple :
Filmer des activités manuelles en POV
Un modèle vision-langage pour un robot est une IA capable de comprendre et relier des images (vision) et des mots (langage), afin que le robot puisse décrire ce qu’il voit, comprendre des instructions visuelles et verbales, et agir en conséquence.
Le problème, outre les questions de droit d’auteur, c’est que le stock de vidéos disponibles n’est vraisemblablement pas assez étoffé pour ne miser que là-dessus. D’où le projet Go-Big qui vise donc à bâtir et nourrir le « plus grand ensemble de données de pré-entraînement au monde », en prenant des séquences subjectives de gens, via des caméras.
Le pré-entraînement va permettre d’exposer un modèle d’IA à un immense corpus de données génériques pour qu’il développe des compétences de base, avant de l’adapter ensuite à des tâches plus spécifiques. En somme, c’est une formation initiale sur des données générales. Et la vue subjective va apporter une aide substantielle.
En effet, cette captation en « POV », c’est-à-dire à la première personne, où la caméra est portée sur la tête, sert à constituer un stock d’enregistrements se rapprochant fortement de la perception visuelle qu’aurait un robot humanoïde. Selon Figure, la collecte de données est d’ores et déjà en cours et devrait monter en puissance dans les mois à venir.
Cette vaste base de données de référence, taillée pour les robots domestiques, pourrait par la suite servir d’accélérateur à l’IA, de la même manière que des ensembles de données massifs et diversifiés comme Wikipédia (pour le langage), YouTube (la vidéo) ou ImageNet (la vision par ordinateur) ont été très utiles à l’écosystème.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

Toute l'actu tech en un clin d'œil
Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !
Pour ne rien manquer de l’actualité, suivez Numerama sur Google !