Des scientifiques de l'université de Washington ont réussi à créer un faux discours vidéo de Barack Obama à partir de simples pistes audio, en évitant un écueil récurrent : leur montage offre une synchronisation des propos tenus et des lèvres de l'ancien président américain. Si cette avancée technique impressionne, elle interroge aussi sur d'éventuelles dérives futures.

Dans cette vidéo de Barack Obama, la voix est bien celle de l’ancien président américain… mais les propos qu’il tient proviennent en réalité d’autres interventions. L’illusion est pourtant (presque) totale.

Et pour cause : une équipe d’informaticiens de l’université de Washington a réussi à créer un réseau de neurones artificiels capable de convertir des pistes audio de Barack Obama en reproductions visuelles de sa bouche pour synchroniser ses propos avec la vidéo utilisée comme support.

Une prouesse remarquable — aidée par le financement de Facebook, Google, Samsung et Intel –, quand on sait que la superposition d’extraits audio non concordants avec une image est traditionnellement démasquée par cette non-synchronisation entre le mouvement des lèvres et les paroles entendues.

14 heures de vidéos sources

Les scientifiques précisent que Barack Obama faisait office de cobaye idéal puisqu’on trouve des heures de vidéo de lui — grâce notamment aux interventions vidéo hebdomadaires organisées pendant son mandat — accessibles publiquement.

Supasorn Suwajanakorn, le responsable principal de cette recherche — qui travaille essentiellement sur la vision par ordinateur — détaille : « En s’entraînant sur 14 heures tirées des vidéos hebdomadaires d’intervention du président, un réseau de neurones artificiels apprend à convertir ces éléments audio bruts en formes de la bouche. Au vu de sa forme à chaque instant, nous synthétisons une texture de [lèvres] de grande qualité […] pour modifier [dans la vidéo finale] ce qu’il semble dire en concordance avec la piste audio d’origine. »

Ces mouvements réalistes et synchronisés de la bouche sont en effet intégrés au visage de la personne visible sur une autre vidéo mais dans un contexte totalement différent. L’équipe a donc isolé des extraits audio de Barack Obama sur certains sujets pour lui faire parler pêle-mêle de terrorisme, de la paternité ou encore de la création d’emplois sur la vidéo finale.

L’équipe vante de futures applications pratiques

Le système est encore perfectible : les scientifiques ont eux-mêmes reconnu ses faiblesses, comme un problème d’alignement entre la bouche et le visage ou la difficulté de faire concorder des émotions faciales au ton employé à certains moments du discours.

« Les gens sont très sensibles à la moindre zone de la bouche qui ne semble pas réaliste. Dès que vous ne reproduisez pas au mieux les dents ou que le menton bouge au mauvais moment, on le voit tout de suite et ça paraît faux » précise l’auteur principal de cette prouesse. D’où la nécessité d’une reproduction parfaite.

Ira Kemelmacher-Shlizerman, du département d’informatique et d’ingénierie de l’université, se réjouit de cette avancée : « Ce type de résultat n’avait encore jamais été montré. Une conversion réaliste de l’audio à la vidéo présente des usages pratiques, comme l’amélioration des visio-conférences pendant les réunions, ou encore la possibilité future de discuter avec une figure historique en réalité virtuelle grâce à la création d’images depuis l’audio. C’est le genre d’avancée qui permettra d’aboutir à ces prochaines étapes. »

Skype et Messenger pourraient notamment en bénéficier, selon Steve Seitz, co-auteur de ce travail : « Quand vous êtes sur Skype […], la connexion est souvent irrégulière et de mauvaise résolution alors que le son est plutôt bon. Ce serait génial d’utiliser celui-ci pour produire une vidéo de bien meilleure qualité. »

Le futur outil des auteurs de fake news ?

Si l’avancée est techniquement impressionnante, il est légitime de s’interroger sur ses potentielles si elle devait se généraliser. Les créateurs actuels de fake news — le terme fétiche du successeur de Barack Obama pour désigner certains médias — se feraient un plaisir d’inonder le web de fausses vidéos considérées comme véridiques par les internautes, dans lesquelles il serait particulièrement difficile de démêler le vrai du faux.

Pour l’instant, ce réseau de neurones artificiels est seulement capable d’« imiter » la bouche d’une unique personne, en l’occurrence Barack Obama. À terme, l’idée est de pouvoir identifier tout individu et de reproduire son discours sur une vidéo à l’aide de beaucoup moins de données, en passant par exemple de 14 heures de contenu à seulement une heure.

Steve Seitz se veut rassurant : « Vous ne pouvez pas prendre la voix de n’importe qui et la transformer en vidéo d’Obama. Nous avons fait le choix conscient de nous orienter vers une méthode permettant de glisser les mots de quelqu’un dans la bouche d’autrui. Nous prenons simplement de véritables mots prononcés par quelqu’un pour les transformer en vidéo de cette personne. »

Partager sur les réseaux sociaux