On ne sait pas exactement quel est l’intérêt pratique de cette recherche pour Disney, mais le résultat intéressera fortement ceux qui souhaitent truquer des vidéos pour faire dire à quelqu’un ce qu’il ne dit pas. Des chercheurs de Disney Research ont publié une étude (.pdf) dans laquelle ils démontrent qu’il est possible de générer automatiquement des phrases prononcées par un acteur ou par un logiciel de synthèse vocale, qui correspondent parfaitement au mouvement des lèvres effectué dans la vidéo d’origine. 

Pour y parvenir, les chercheurs ont conçu un nouveau modèle de « visèmes » (l’équivalent en lecture sur les lèvres de ce que son les phonèmes pour la prononciation orale), qui ne regarde pas seulement la forme de la bouche au moment où le son est prononcé, mais toute la dynamique du mouvement entre les sons. Cette technique permet d’avoir une bien meilleure précision dans la détection des phonèmes et des intonations qui peuvent ensuite correspondre à ce que dit la personne filmée. Ce sont ainsi des centaines et des centaines de phrases qui peuvent se substituer aux originales.

Si l’on ajoute à cela la synthèse vocale de Microsoft qui imite le timbre de voix de la personne, il sera plus facile que jamais de faire dire à quelqu’un ce qu’il n’a jamais dit :

https://youtube.com/watch?v=DX6YlYB3KNk

Nouveauté : Découvrez

La meilleure expérience de Numerama, sans publicité,
+ riche, + zen, + exclusive.

Découvrez Numerama+

Si vous avez aimé cet article, vous aimerez les suivants : ne les manquez pas en vous abonnant à Numerama sur Google News.