Publié par Guillaume Champeau, le Lundi 12 Mars 2012

Microsoft vous permettra de parler japonais sans effort

Voilà qui devrait faciliter encore la mondialisation, tout en respectant les langues de chacun. Microsoft travaille sur une solution qui permet de traduire vocalement ce que dit une personne, en utilisant sa propre voix plutôt que celle d'une synthèse vocale traditionnelle.

Il arrive encore que la technologie nous épate. L'an dernier, nous avions déjà été impressionnés par le Conversation Mode de l'application de traduction de Google sous Android, qui permet à l'utilisateur de parler dans sa langue et de faire écouter une traduction à son interlocuteur étranger. Mais Microsoft a placé la barre encore plus haut, dans un projet de recherche dévoilé lors du TechFest 2012 la semaine dernière.

Frank Soong, responsable de la recherche vocale chez Microsoft, a présenté un logiciel qui permet non seulement de traduire ce que dit quelqu'un et de le synthétiser vocalement, mais qui utilise en plus la propre voix de la personne pour restituer la traduction. Il suffit d'apprendre au logiciel à reconnaître les caractéristiques de la voix de l'utilisateur, ce qui peut ne prendre qu'une heure, et le logiciel est alors capable de synthétiser la voix dans n'importe quelle langue.

Pour ce faire, des algorithmes découpent la synthèse vocale en de très nombreux morceaux de 5 millisecondes chacun, et les fait correspondre au modèle type d'une voix dans la langue cible. Le ton, la longueur du son, ou le volume sont alors automatiquement ajustés pour restituer le meilleur accent possible, sans trahir la voix de la personne. Pour la démonstration, Soong fait ainsi parler une voix virtuelle de son supérieur Rick Rashid, qui dirige les laboratoires de recherche de Microsoft.

Mieux encore, il a demandé à Craig Mundie, le directeur de la recherche et de la stratégie de Microsoft, d'utiliser le logiciel pendant 1 heure pour lui apprendre sa voix, mais pas uniquement. Le logiciel est également capable de capturer les expressions faciales qui correspondent aux différents phonèmes, pour synthétiser non seulement la voix mais aussi le mouvement des lèvres, ce qui facilite la compréhension et ouvre de nouvelles perspectives, notamment pour les jeux vidéo ou les visioconférences.

Pour le moment, la solution de Microsoft est déjà capable de traduire entre 26 langues.

Publié par Guillaume Champeau, le 12 Mars 2012 à 10h15
 
18
Commentaires à propos de «Microsoft vous permettra de parler japonais sans effort»
Inscrit le 18/06/2011
871 messages publiés
Pour le coup m$ me laisse sur cul
Inscrit le 30/06/2009
22 messages publiés
Merci vous pour l'info .
Inscrit le 05/10/2011
2885 messages publiés
Projet très intéressant.
L'inconvénient, quand ce genre de traducteurs se seront démocratisés (ce qui arrivera forcément), c'est que les voyages à l'étranger perdront un peu de leur charme : se faire comprendre par les gestes
Inscrit le 20/01/2012
162 messages publiés
Ca c'est bon! Reste a voir la liste des langues supportées
Inscrit le 20/09/2011
5137 messages publiés
Il faut juste espérer que ce genre d'outil ne se répande pas trop. Parce qu'apprendre une langue étrangère, ce n'est pas uniquement apprendre du vocabulaire et de la syntaxe, c'est également s'ouvrir vers une autre culture et une autre forme de pensée.

Et puis quand on va à l'étranger, dans un pays dont on ne parle pas la langue, cela fait tellement plaisir aux gens de voir qu'on a fait l'effort d'apprendre 4 mots et 2 phrases et leur grand plaisir, c'est de vous expliquer comment les prononcer correctement. Cela aide à briser la glace.

Tandis que là (hormis l'aspect technique tout à fait intéressant), c'est un repli sur soi-même.
Inscrit le 27/01/2010
260 messages publiés
Le truc est de savoir si il sera adaptable aux flux vidéo étranger et de la tuer le métier de doubleur et le fansub? L'avenir le dira.
Sa fait penser au traducteur universel de Star Trek.
[message édité par amiralkun le 12/03/2012 à 10:56 ]
Inscrit le 16/03/2010
17 messages publiés
Je suis impressionné, mais je vois aussi le gros risque qu'apporte cette technologie : microsoft vient de trouver le meilleur moyen de tracer les gens à la voix (appel anonyme, phrase interceptée dans une manif filmée, etc) mais aussi de faire dire aux gens ce qu'ils ne disent pas...
Inscrit le 05/10/2011
2885 messages publiés
anxest, le 12/03/2012 - 11:00
Je suis impressionné, mais je vois aussi le gros risque qu'apporte cette technologie : microsoft vient de trouver le meilleur moyen de tracer les gens à la voix (appel anonyme, phrase interceptée dans une manif filmée, etc) mais aussi de faire dire aux gens ce qu'ils ne disent pas...

Ouais genre si tu dis "Bill Gates pue des pieds", il va le traduire par "Bill Gates rocks" en anglais.
Inscrit le 26/10/2011
33 messages publiés
zig, le 12/03/2012 - 10:54
Tandis que là (hormis l'aspect technique tout à fait intéressant), c'est un repli sur soi-même.


Oui c'est un repli sur soi même de pouvoir parler à un étranger dans une langue qu'on n'aurait jamais pu/voulu apprendre...

Apprendre une langue c'est comprendre une partie de la culture d'un autre, mais parler librement avec lui en est une autre.
Ce qu'on perd d'un côté...
Inscrit le 10/03/2009
514 messages publiés
l'interet c'est qu'il devrai pouvoir traduire plus correctement le chinois, bon ce qui est dommage c'est qu'il va faloir payer une fortune a ms pour utilisé, pas pres de le voir arriver dans les jeux video
Inscrit le 30/03/2010
1080 messages publiés
anxest, le 12/03/2012 - 11:00
Je suis impressionné, mais je vois aussi le gros risque qu'apporte cette technologie : microsoft vient de trouver le meilleur moyen de tracer les gens à la voix (appel anonyme, phrase interceptée dans une manif filmée, etc) mais aussi de faire dire aux gens ce qu'ils ne disent pas...


Ca m'inquiete également beaucoup. Pas la partie "traduction", la partie "capturer le timbre de la voix de quelqu'un pour le restituer avec d'autres paroles".

Les traductions automatiques étant ce qu'elles sont, c'est pas gagné ceci dit.
Inscrit le 23/12/2011
377 messages publiés
anxest, le 12/03/2012 - 11:00
Je suis impressionné, mais je vois aussi le gros risque qu'apporte cette technologie : microsoft vient de trouver le meilleur moyen de tracer les gens à la voix (appel anonyme, phrase interceptée dans une manif filmée, etc) mais aussi de faire dire aux gens ce qu'ils ne disent pas...


Parce que tu crois qu'on ne sait pas déjà reconnaître quelqu'un à sa voix ? Tu es naïf ...
Inscrit le 28/08/2004
6873 messages publiés
Les traductions automatiques étant ce qu'elles sont, c'est pas gagné ceci dit.

+1
Si c'est juste pour entendre une voix qui lit une "traduction" style Babelfish, je doute que l'interlocuteur comprenne grand-chose...surtout en japonais, où
-les homophones sont très nombreux,
- à l'oral, il n'y a que le contexte qui permettent de savoir ce qu'on veut dire quand il y a 50 mots possibles (pas de tons comme en chinois),
- de nombreux mots sont sous-entendus, car ce même contexte permet de les deviner (ce qu'une machine ne peut pas faire).
Bref, je doute que cela remplace de vraies traductions ou l'apprentissage de la langue...
Inscrit le 03/10/2011
6618 messages publiés
"Bonjour, je m'appelle James Bond, ma voix est mon passeport !"
Bizz - Porte déverrouillée !

Plus sérieusement, il ne s'agit pas ici de traduction mais de prononciation, ou de comment Mr X américain ne parlant que difficilement l'anglais pourrait prononcer de façon claire un texte chinois (moyen) avec sa voix mais avec la véritable prononciation à la chinoise (moyen).
On en est pas encore à comprendre le crévingtdiou, té peuchère, brun, ça getz, tabernacle, nonante, ...
Autrement dit, le système ne permet pas d'établir une véritable conversation entre une personne qui a un iMS-TTS, et le paysan du coin qui n'en a pas.
Les traductions sont toujours à chier, de même que les correcteurs orthographique et grammatical. Tant qu'un logiciel ne sera pas capable de corriger une langue de manière sûre (c'est à dire en comprenant que le texte en cours de correction parle de typographie et que donc "espace" est féminin et non masculin, ou que "pendule", ici, sert à aller un peu plus à l'ouest et non à avoir l'heure), il ne sera pas capable de la traduire.
Et les ordinateurs sont toujours incapables de comprendre le quidam qui ne parle pas le français de l'Académie ou qui ne vit pas dans le 17ème (déjà que pour un humain, il n'est pas simple de comprendre l'auvergnat bourru perdu au fond de sa campagne). C'est d'ailleurs ce que je me disais l'autre jour en regardant un film québécois : "c'est con, je comprend mieux un québécois qui parle anglais, qu'un québécois parlant français".
Inscrit le 05/10/2011
2885 messages publiés
Centaurien, le 12/03/2012 - 14:07
"c'est con, je comprend mieux un québécois qui parle anglais, qu'un québécois parlant français".

Tellement vrai.
Inscrit le 16/03/2010
17 messages publiés

Parce que tu crois qu'on ne sait pas déjà reconnaître quelqu'un à sa voix ? Tu es naïf ...


Je sais bien qu'on est capable (et Microsoft n'a jamais vraiment rien inventé). Le truc, c'est qu'ils vont démocratiser l'outil et accélérer le marquage... Après, ne comptez-pas sur moi pour utiliser cet outil, justement pour cette raison. Je suis également persuadé que les entreprise de télécom vont forcément finir par mettre en place des filtres pour enregistrer notre voix et là, on aura plus grand chose à faire, mais autant ne pas les encourager...
Inscrit le 17/03/2006
830 messages publiés
Tout ca existe déjà puisque les voix de synthèse sont déjà au départ basé sur des voix humaines, sauf que là ca risque de simplifier gandement le boulot et de démocratiser la chose.
Et si n'importe qui peut enregistrer n'importe quelle voix et pouvoir lui faire dire n'importe quoi en gardant les caractéristiques de cette voix, c'est la porte ouverte à de nombreux abus.

Allez étape suivante, on crée un logiciel capable de vous projeter dans n'importe qu'elle situation et vous faire faire n'importe quoi à partir de votre emprunte corporelle
Inscrit le 25/08/2009
1170 messages publiés
Euh, si c'est aussi bien traduit que la version texte ça risque d'être compliqué... Même google translate a du mal à traduire des phrases complètes.
Répondre

Tous les champs doivent être remplis.

OU

Tous les champs doivent être remplis.

FORUMS DE NUMERAMA
Poser une question / Créer un sujet
vous pouvez aussi répondre ;-)
Numerama sur les réseaux sociaux
Mars 2012
 
Lu Ma Me Je Ve Sa Di
27 28 29 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31 1
2 3 4 5 6 7 8