Facebook a dévoilé une étude qui montre qu'il utilise les publications de ses membres pour enrichir ce qui devrait être son propre moteur de traductions automatisées.

Depuis 2011, Facebook propose à ses utilisateurs de lire les publications étrangères dans leur propre langue, grâce à un partenariat avec l'outil de traduction Bing Translate de Microsoft. Lorsqu'un message est publié dans une autre langue, il suffit de cliquer sur "voir la traduction" pour comprendre aussitôt ce qu'il veut dire. Mais il semble que Facebook travaille sur son propre outil de traduction pour améliorer la fonctionnalité, en ayant recruté une équipe de chercheurs issus pour la plupart de l'Université Carnegie Mellon.

Dans une étude attribuée à Facebook Inc et publiée par le réseau social (mais présentée pour la première fois lors d'une conférence d'experts en décembre 2014), quatre chercheurs spécialisés dans la traduction automatisée ont présenté une méthode pour affiner la qualité des traductions par ordinateur, en utilisant les publications des utilisateurs de Facebook. Le but des chercheurs était d'enrichir le corpus de référence de textes en plusieurs langues, utilisé par apprentissage machine pour deviner les meilleures traductions possibles d'un texte selon des méthodes heuristiques

L'HUMAIN EST PRÉVISIBLE

Mathias Eck, Yury Zemlyanskiy, Joy Zhang et Alex Waibel expliquent qu'ils ont ainsi réussi à améliorer la qualité des traductions obtenues par cette méthode en enrichissant automatiquement la base de données de phrases traduites, extraites des messages des utilisateurs de Facebook selon deux méthodes. La première est assez basique puisqu'il s'agissait simplement de prendre les messages que les utilisateurs avaient eux-mêmes traduits en plusieurs langues, ce qui est parfois le cas aux Etats-Unis lorsque des marques ou des personnalités veulent s'adresser à leur public à la fois en anglais et en espagnol. La deuxième méthode est en revanche beaucoup plus audacieuse.

Ils sont en effet partis du principe que des internautes du monde entier qui partageaient le même lien avaient certainement les mêmes choses à dire sur le contenu, et qu'il était possible de deviner par des méthodes algorithmiques les posts publiés dans des langues différentes qui voulaient dire exactement la même chose. Et ça fonctionne. La solution aurait obtenu de meilleurs résultats qu'avec le corpus de base, composé de traductions officielles réalisées par le Parlement Européen et de phrases traduites par la communauté Tatoeba

La méthode a en outre pour avantage de se reposer sur un langage très naturel, avec son argot et ses fautes de grammaire ou d'orthographe courantes. Et avec 1,4 milliards d'utilisateurs dans le monde, Facebook apprendra très vite à traduire dans les différentes langues.

Partager sur les réseaux sociaux

Articles liés