Avec Translatotron, Google s'essaie à la traduction directe de voix à voix

Google a présenté Translatotron, son nouvel outil de traduction. L’algorithme a été entrainé à traduire la parole d’une langue dans une autre langue, sans transcription écrite comme intermédiaire.

Une traduction d’une langue vers une autre, sans passer par une transcription écrite : Google a annoncé l’objectif de sa nouvelle technologie surnommée Translatotron le 15 mai 2019 dans une publication de blog. L’algorithme a été entrainé pour réussir à traduire, de voix à voix directement, des paroles prononcées.

L’entreprise avait détaillé le fonctionnement de son Translatotron dans un article publié le 12 avril sur arXiv.org. Google y écrit que ce réseau de neurones artificiels est « capable de traduire directement la parole d’une langue en parole dans une autre langue, sans recourir à une représentation textuelle intermédiaire ». Le document montre aussi que Google a travaillé sur la voix du « locuteur source », c’est-à-dire la première personne qui parle, pour l’imiter dans la traduction de l’algorithme.

Le fonctionnement du Translatotron.

Source : Google

« Hi a i’m of the ermo how are you »

Les premières démonstrations de cette technologie ont étés faites en espagnol. Google a utilisé deux bases de données où sont traduites des phrases de l’espagnol vers l’anglais. Vous pouvez écouter une vingtaine de phrases, traduites depuis cette langue vers l’anglais avec le Translatotron. Le résultat n’est pas encore parfait. La phrase « Qué tal, eh, yo soy Guillermo, ¿Cómo estàs? » (« Salut, je suis Guillermo, comment vas-tu ? ») devient « hi a i’m of the ermo how are you ».

Comment fonctionne cet outil ? Pour l’algorithme, la parole à traduire est présentée sous forme de spectrogramme, c’est-à-dire une image qui contient les fréquences de ce signal. Dans l’image ci-dessous, la source est à gauche : c’est l’enregistrement en espagnol, à traduire. Le fichier « Target (English) » est la traduction en anglais dans la base de données. Le troisième enregistrement est la traduction qui aurait été obtenue en utilisant une approche avec du texte : ST signifie « speech to text translation » (de la parole vers le texte) et TSS signifie « text to speech » (du texte à la parole). Le quatrième extrait, dit S2ST (« speech to speech translation », soit la traduction de la parole à la parole» montre le résultat obtenu avec Translatotron.

Google-research

Jusqu’à présent, les systèmes capables de traduire la parole reposaient sur plusieurs étapes (d’où l’idée d’une cascade), impliquant une transcription du discours en texte et une traduction de celui-ci. Il fallait ensuite synthétiser vocalement la traduction obtenue. Google ajoute d’ailleurs que cette multiplication des tâches a favorisé l’utilisation de son outil Google Traduction. Avec Translatotron, l’entreprise tente de montrer qu’il est possible de faire aussi bien que la méthode en cascade, en traduisant directement la parole.

Quels seraient les avantages de cet outil ?

Un algorithme permettant de traduire avec la seule parole pourrait permettre d’éviter les erreurs entraînées par toutes ces étapes (comme dans le jeu du « téléphone », un mot peut vite être modifié au cours de transcriptions successives). Google ajoute que son outil permet de mieux conserver les noms propres — ce que l’exemple avec le prénom « Guillermo » ne montre pas…

Translatotron n’est que le point de départ des recherches sur les algorithmes capables de traduire directement des paroles dans une autre langue. Il serait intéressant de suivre comment la technologie évolue et si elle échappe, par exemple, aux biais sexistes observés chez l’algorithme de Google Traduction.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !