Voilà qui devrait faciliter encore la mondialisation, tout en respectant les langues de chacun. Microsoft travaille sur une solution qui permet de traduire vocalement ce que dit une personne, en utilisant sa propre voix plutôt que celle d’une synthèse vocale traditionnelle.

https://www.dailymotion.com/embed/video/xpe5oe?logo=0

Il arrive encore que la technologie nous épate. L’an dernier, nous avions déjà été impressionnés par le Conversation Mode de l’application de traduction de Google sous Android, qui permet à l’utilisateur de parler dans sa langue et de faire écouter une traduction à son interlocuteur étranger. Mais Microsoft a placé la barre encore plus haut, dans un projet de recherche dévoilé lors du TechFest 2012 la semaine dernière.

Frank Soong, responsable de la recherche vocale chez Microsoft, a présenté un logiciel qui permet non seulement de traduire ce que dit quelqu’un et de le synthétiser vocalement, mais qui utilise en plus la propre voix de la personne pour restituer la traduction. Il suffit d’apprendre au logiciel à reconnaître les caractéristiques de la voix de l’utilisateur, ce qui peut ne prendre qu’une heure, et le logiciel est alors capable de synthétiser la voix dans n’importe quelle langue.

Pour ce faire, des algorithmes découpent la synthèse vocale en de très nombreux morceaux de 5 millisecondes chacun, et les fait correspondre au modèle type d’une voix dans la langue cible. Le ton, la longueur du son, ou le volume sont alors automatiquement ajustés pour restituer le meilleur accent possible, sans trahir la voix de la personne. Pour la démonstration, Soong fait ainsi parler une voix virtuelle de son supérieur Rick Rashid, qui dirige les laboratoires de recherche de Microsoft.

Mieux encore, il a demandé à Craig Mundie, le directeur de la recherche et de la stratégie de Microsoft, d’utiliser le logiciel pendant 1 heure pour lui apprendre sa voix, mais pas uniquement. Le logiciel est également capable de capturer les expressions faciales qui correspondent aux différents phonèmes, pour synthétiser non seulement la voix mais aussi le mouvement des lèvres, ce qui facilite la compréhension et ouvre de nouvelles perspectives, notamment pour les jeux vidéo ou les visioconférences.

Pour le moment, la solution de Microsoft est déjà capable de traduire entre 26 langues.


Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !