Publié le 05 janvier 2015 à 13h37

Un robot peut apprendre à cuisiner en regardant YouTube

Temps de lecture : 3 min

Des chercheurs ont enseigné à un robot comment apprendre à cuisiner en regardant des vidéos sur YouTube, grâce à des modules de reconnaissance des ingrédients et gestes utilisés par le cuisinier.

Même si nous lisons des livres et assistons à des cours à l'école, nos connaissances sont avant tout dictées par la reproduction des gestes et du langage. Personne ne nous enseigne à mettre un pied devant l'autre pour marcher, à fermer la main pour saisir une fourchette, ou à dire "zut" (ou autre chose) lorsque l'on fait une bêtise. C'est en voyant les autres faire que ces choses semblent devenir instinctives. Or c'est cette capacité à apprendre par soi-même que les roboticiens tentent aujourd'hui de développer avec le concours des spécialistes de l'intelligence artificielle, qui mettent au point des technologies d'auto-apprentissage de plus en plus proches du fonctionnement du cerveau humain (y compris certains processeurs spécialisés).

Des chercheurs de l'Université du Maryland et du NICTA australien viennent ainsi de publier une étude (.pdf) dans laquelle ils expliquent avoir appris à des robots comment cuisiner, en leur faisant regarder des vidéos sur YouTube. L'objectif de l'étude était que le robot sache reconnaître les gestes employés et les ingrédients utilisés, qu'il formule lui-même les associations correspondantes dans un langage syntaxique, qu'il pourrait réutiliser pour reproduire les actions. Par exemple l'IA génère d'elle-même la fonction Action_Spread (Spreader,Bread) lorsqu'elle comprend qu'il faut utiliser le couteau à beurre pour étaler quelque chose sur une tranche de pain.

Bien sûr la réalité est moins flatteuse pour l'IA, puisqu'il a d'abord fallu que les chercheurs traitent manuellement une grande quantité des plans des 88 vidéos utilisées, pour renseigner une base de données de départ sur le type d'outils utilisés (couteau, fourchette, batteur, cuillère…), d'aliments ou de gestes employés. Ces métadonnées associées aux portions d'images correspondantes sont ensuite ingérées par deux modules basés sur des réseaux de neurones à convolution, l'un dédié à la reconnaissance des mouvements de saisie d'objets par la main, et l'autre à la reconnaissance des objets et ingrédients (c'est le même type de technologie que celle utilisée par Google pour légender des photos). Le but de l'expérience est alors de vérifier si le robot est capable de reconnaître les objets et les actions sur des images qui n'ont pas été traitées manuellement, en utilisant le savoir accumulé.

Selon les résultats publiés qui couvrent uniquement 10 % de l'échantillon retenu, l'intelligence artificielle a réussi à reconnaître le type de geste utilisé dans 77 % des cas, et à reconnaître les aliments ou objets dans 93 % des cas. 83 % des actions sont bien reconnues. Les chercheurs estiment que ces résultats démontrent une "haute précision" de l'apprentissage par YouTube, d'autant plus remarquable qu'il s'agit ici de reconnaître des mouvements sans l'aide d'informations 3D, et dans des situations réelles qui ne permettent pas toujours de bien voir quel objet est dans la main, ou quelle est la forme de la main autour d'un objet.

L'étude ne dit pas, en revanche, si les chercheurs ont réellement demandé à un robot de réaliser une omelette, et s'ils l'ont goûtée. Mais ce sera certainement l'objet d'une nouvelle publication, et une mauvaise nouvelle de plus pour les cuisiniers McDo. Et bien sûr, ce qui est possible pour la cuisine le sera dans beaucoup d'autres domaines.

Abonnez-vous à Numerama sur Google News pour ne manquer aucune info !

YouTube

Télécharger gratuitement

Signaler une erreur dans le texte

Partager l'article

Sur le même thème

Profitez de la musique sans vous couper du monde avec ces écouteurs au design original

sponso

ChatGPT, c’est quoi ? On a laissé ChatGPT répondre à la question

Un coach Apple Fitness+. // Source : Apple

Apple pourrait lancer le ChatGPT du sport et de la santé

L'hôtel Mirage à Las Vegas, pour le CES 2024. // Source : Numerama

Numerama est au CES 2024 de Las Vegas : voici notre programme

Cette image en IA d’un pénis démesuré de rat a été validée dans une étude scientifique

YouTube avertit OpenAI de ne pas piquer ses vidéos pour entraîner Sora

Les derniers articles tech

L'interface de Meta AI dans les messageries Meta. // Source : Meta

tech web réseaux sociaux

Meta AI et Llama 3 : tout comprendre à la stratégie de Facebook et Instagram pour détrôner ChatGPT

18.04.2024 18:31

Bientôt une nouvelle app ?

Google Keep sera sûrement la prochaine victime de Google

18.04.2024 17:40

Des écouteurs sans-fil ouverts pensés pour le sport mais pas uniquement // Source : Baseus

tech smartphone accessoires smartphones

Profiter de la musique sans se couper du monde, voici la promesse de ces écouteurs au design original

18.04.2024 17:36

sponso

tech blockchain crypto-monnaie

3 scénarios pour le futur du bitcoin après le halving

18.04.2024 14:59

La Chose à Deux Têtes (1972) // Source : imdb

tech blockchain crypto-monnaie

Le Bitcoin Cash a déjà fait son halving : qu’en a-t-on appris ?

18.04.2024 12:12

L'émulateur Delta. // Source : Montage Numerama

tech smartphone apple iphone

L’iPhone a enfin un émulateur de jeux Nintendo, mais les Européens doivent payer

18.04.2024 11:08

tech robots

Boston Dynamics se moque d’Elon Musk en présentant son nouveau robot humanoïde Atlas

18.04.2024 10:47

tech smartphone apple iphone

AltStore : le premier magasin alternatif de l’iPhone est arrivé, mais l’installer est difficile

18.04.2024 09:57

Une appli cynique

Image utilisée par TikTok pour illustrer sa fonction Récompenses. // Source : Capture Numerama

Tout le monde est choqué par TikTok Lite, mais pourquoi ?

18.04.2024 09:17

tech intelligence artificielle

Que reproche-t-on à la vidéosurveillance algorithmique pour les JO de Paris 2024 ?

17.04.2024 17:59

Nouveauté : Découvrez Numerama+

Nouveauté : Découvrez