Microsoft a présenté en Chine ses derniers progrès en matière de traduction, et ils sont impressionnants. La firme est désormais capable de synthétiser vocalement une traduction de ce que dit l'interlocuteur, en utilisant sa propre voix, dans une poignée de secondes.

Microsoft semble avoir une véritable avancée sur le marché de la traduction vocale, et être sur le point de commercialiser des solutions qui auront un impact considérable pour les relations internationales, en particulier dans le commerce. Alors que l'anglais s'est imposé comme la langue universelle, la firme de Redmond a développé des technologies impressionnantes pour permettre à chacun d'utiliser sa propre langue natale et de converser aussi naturellement que possible avec des étrangers.

En début d'année, nous avions déjà parlé de la présentation faite par Frank Soong, le responsable de la recherche vocale chez Microsoft, qui montrait qu'il était désormais possible d'utiliser la propre voix de l'utilisateur pour synthétiser vocalement la traduction. Mais à l'époque, la traduction était réalisée d'après des textes pré-enregistrés, ce qui ne permettait pas d'apprécier la rapidité du système.

Mais Microsoft vient de mettre en ligne la vidéo d'une démonstration publique réalisée le mois dernier lors de sa conférence Asian 21st Century Computing, par Richard Rashid. Dans un premier temps, le directeur de la recherche de Microsoft explique les progrès réalisés en matière de reconnaissance vocale, pendant que son discours est effectivement transcrit en temps réel, en anglais, sur un grand écran. Rick Rashid parle relativement lentement, mais la transcription en anglais est presque parfaite ; ce qu'il attribue à la combinaison de meilleurs algorithmes statistiques, et d'une base de données très importante (il ne dit pas comment Microsoft l'a acquise). 

Puis, le texte est traduit en temps réel en Chinois, avec un tout petit délai dû à la nécessité de ne pas traduire mot à mot. Et enfin, à partir de 7"35, le public peut entendre la voix de Richard Rashid parler Mandarin, grâce à la synthèse vocale :

Le processus prend actuellement 3 secondes environ, et Microsoft prévient qu'il reste encore beaucoup de travail à faire. Mais déjà, la firme dit avoir réussi à réduire d'un tiers les erreurs de reconnaissance vocale, avec désormais un taux d'erreurs d'environ 15 %, contre 25 % sur les solutions actuelles.

Culturellement, ce type d'outils pourrait être une révolution, qui aura le double bénéfice de permettre aux peuples de se parler sans barrière linguistique, et de sauvegarder la diversité des langues.

La seule société qui semble capable de concurrencer Microsoft sur ce terrain est Google, qui a lancé son système Conversation Mode dans Google Translate en octobre 2011.

Partager sur les réseaux sociaux

Plus de vidéos