Voilà qui devrait faciliter encore la mondialisation, tout en respectant les langues de chacun. Microsoft travaille sur une solution qui permet de traduire vocalement ce que dit une personne, en utilisant sa propre voix plutôt que celle d’une synthèse vocale traditionnelle.

https://www.dailymotion.com/embed/video/xpe5oe?logo=0

Il arrive encore que la technologie nous épate. L’an dernier, nous avions déjà été impressionnés par le Conversation Mode de l’application de traduction de Google sous Android, qui permet à l’utilisateur de parler dans sa langue et de faire écouter une traduction à son interlocuteur étranger. Mais Microsoft a placé la barre encore plus haut, dans un projet de recherche dévoilé lors du TechFest 2012 la semaine dernière.

Frank Soong, responsable de la recherche vocale chez Microsoft, a présenté un logiciel qui permet non seulement de traduire ce que dit quelqu’un et de le synthétiser vocalement, mais qui utilise en plus la propre voix de la personne pour restituer la traduction. Il suffit d’apprendre au logiciel à reconnaître les caractéristiques de la voix de l’utilisateur, ce qui peut ne prendre qu’une heure, et le logiciel est alors capable de synthétiser la voix dans n’importe quelle langue.

Pour ce faire, des algorithmes découpent la synthèse vocale en de très nombreux morceaux de 5 millisecondes chacun, et les fait correspondre au modèle type d’une voix dans la langue cible. Le ton, la longueur du son, ou le volume sont alors automatiquement ajustés pour restituer le meilleur accent possible, sans trahir la voix de la personne. Pour la démonstration, Soong fait ainsi parler une voix virtuelle de son supérieur Rick Rashid, qui dirige les laboratoires de recherche de Microsoft.

Mieux encore, il a demandé à Craig Mundie, le directeur de la recherche et de la stratégie de Microsoft, d’utiliser le logiciel pendant 1 heure pour lui apprendre sa voix, mais pas uniquement. Le logiciel est également capable de capturer les expressions faciales qui correspondent aux différents phonèmes, pour synthétiser non seulement la voix mais aussi le mouvement des lèvres, ce qui facilite la compréhension et ouvre de nouvelles perspectives, notamment pour les jeux vidéo ou les visioconférences.

Pour le moment, la solution de Microsoft est déjà capable de traduire entre 26 langues.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+

Si vous avez aimé cet article, vous aimerez les suivants : ne les manquez pas en vous abonnant à Numerama sur Google News.