Le MIT s'est inspiré de la manière dont les enfants apprennent le langage pour créer un analyseur. À partir d'une vidéo sous-titrée, il associe un sens aux mots sans avoir besoin d'annotations supplémentaires.

Un robot pourrait-il apprendre le langage comme les enfants qui le découvrent en associant des mots à des images ? C’est la question que s’est posée le Massachusetts Institute of Technology (MIT) en créant un analyseur capable d’associer les sous-titres d’une vidéo à son contenu visuel.

Le 31 octobre 2018, l’Institut a présenté cette nouvelle technologie sur son site. Le MIT explique s’être inspiré de la manière dont les humains apprennent le langage lorsqu’ils sont enfants, en faisant des liens entre ce qu’ils perçoivent de leur environnement et ce qu’ils entendent autour d’eux.

Les machines auxquelles on tente de faire apprendre le langage ne sont habituellement pas entraînées de cette façon. Pour aider les robots à comprendre le sens des mots, les êtres humains doivent annoter les bases de textes qui servent à la formation.

Les robots pourraient apprendre le langage par observation comme les enfants. // Source : Flickr/CC/verkeorg

Apprendre comme les enfants

Comme le souligne le MIT, la collecte de ces annotations « peut prendre beaucoup de temps et s’avérer difficile pour les langages moins courants. » Les humains qui annotent ne sont pas non plus à l’abri de faire des erreurs en tentant d’expliquer le sens d’un mot.

En apprenant par l’observation des images et des sous-titres associés, une machine pourrait réussir à « imiter plus fidèlement le processus d’acquisition du langage chez un enfant. » Sans besoin d’information supplémentaire, l’analyseur saurait établir des liens entre l’image et le texte pour comprendre le sens d’une phrase. C’est comme cela que les enfants apprennent le langage : ils observent et en déduisent une signification, sans avoir eu d’annotation au préalable.

Le MIT songe à cette technologie pour améliorer les futures interactions entre les robots et les humains. Grâce à cet analyseur, une machine pourrait comprendre une commande vocale, même si celui qui l’adresse a glissé une faute de grammaire dans sa phrase — ce que les assistants vocaux peinent par exemple encore à faire.

Partager sur les réseaux sociaux