Des chercheurs en informatique de l'université de Leeds travaillent sur la création automatisée d'avatars virtuels, créés d'après des séries TV qu'une intelligence artificielle doit « regarder » pour s'approprier le personnage voulu.

Si vous aviez la possibilité de faire revivre un personnage de série télévisée pour avoir une discussion avec lui, lequel choisiriez-vous ? Pour James Charles, Derek Magee et David Hogg, la réponse fut Joey, de Friends. Oui, ce personnage benêt incarné par Matt LeBlanc qui contre toutes attentes est devenu au fil des saisons le personnage préféré des téléspectateurs, au point qu’il a ensuite bénéficié de son propre spin-off.

Ces chercheurs de l’école d’informatique de l’Université de Leeds, en Grande-Bretagne, ont en effet développé une intelligence artificielle (.pdf) qui a dû regarder les 236 épisodes de Friends, soit environ 97 heures de vidéos, pour emmagasiner un maximum d’informations sur la manière dont s’exprime Joey Tribianni, et créer de nouvelles répliques qu’il n’a jamais prononcées.

À travers l’exemple de Joey, l’équipe cherche à «  générer un modèle de calcul du mouvement d’une personne, son apparence, sa manière de parler, son langage, et son style d’interaction et de comportement » pour « générer du contenu tout neuf et interactif, rendant effectivement la personne virtuellement immortelle ».

Le résultat visible dans la vidéo ci-dessous est encore extrêmement loin de la promesse et n’impressionnera strictement personne, en tout cas personne qui n’est pas conscient de la difficulté. Mais il a fallu que les algorithmes des chercheurs parviennent à isoler les paroles prononcées par Joey en éliminant les bruits de fond, à les décortiquer pour créer un modèle de synthèse vocale fidèle à l’acteur, et à reproduire les mouvements de la bouche en 3D en se basant sur de multiples scènes éclairées différemment et filmées selon des angles très différents.

À terme, l’équipe imagine qu’il sera possible de créer des avatars virtuels de n’importe qui, en disposant de suffisamment d’enregistrements, pour en faire par exemple un assistant virtuel à qui l’on pourrait parler naturellement.

L’an dernier Disney Research avait présenté le même type de trucages, plus convaincants en apparence, qui permettent de faire dire à quelqu’un ce qu’il ne dit pas, en remplaçant à la fois le son de sa voix et le mouvement de ses lèvres. Toutefois il s’agissait d’une voix de synthèse standard (en attendant que Microsoft mette à disposition ses voix imitées ?), et toutes les acquisitions des mouvements des lèves avaient été faites selon le même éclairage, et sous le même angle, dans des conditions idéales pour le logiciel.

Partager sur les réseaux sociaux

Articles liés