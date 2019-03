Les résultats de traduction de Reverso sont parfois antisémites, sexistes, LGBTphobes ou racistes. On vous explique pourquoi.

Si vous cherchez à traduire des mots à Reverso, vous pourriez être surpris par certaines phrases de mise en contexte suggérées. Certaines sont ouvertement racistes, antisémites, sexistes ou LGBTphobes, comme l’a révélé Le Monde dans un article publié ce vendredi 1er mars.

Des phrases antisémites ou racistes

C’est la Licra (Ligue internationale contre le racisme et l’antisémitisme) qui a remarqué qu’en tapant « nicer » (« plus gentil » en français) dans Reverso Context, on obtenait en 3e résultat « Dachau était beaucoup mieux qu’Auschwitz » ou « Hitler était beaucoup plus gentil avec les juifs qu’ils ne le méritaient ». Lorsqu’on tapait « juifs », on obtenait : « il y a trop de juifs par ici » ou « c’est pourquoi les juifs sont si dangereux », assorti de commentaires complotistes et antisémites.

Message de service à l’attention de @Reverso_ c’est quoi cette traduction quand on recherche « Nicer » ? pic.twitter.com/VEliGev6kw — LICRA (@_LICRA_) February 27, 2019

Ces phrases ne sont plus en ligne, mais on trouve encore bien d’autres phrases problématiques, comme Numerama a pu le constater. En tapant des phrases comme « les noirs sont » ou un terme raciste appelé « n-word », on obtient des phrases racistes et parfois extrêmement violentes.

Sexisme et LGBTphobie

On trouve aussi des phrases sexistes comme « l’honneur d’une jeune fille n’est pas un cliché » ou des insultes : « Toi et ta salope pourriez m’emmener », « à moins que tu n’aies trouvé une autre p*** complaisante ». Lorsque l’on tape le mot « viol », on obtient la phrase « ils ont commencé par afficher le top 10 des astuces pour violer ». Le terme « girls » donne en français : « il aime les adolescentes avec des corps d’enfants ».

On trouve encore sur le site des phrases LGBTphobes. Lorsqu’on tape « queer », on obtient ainsi le terme homophobe « pédé » suivi de la phrase « chaque jour il est plus pédé ». Le terme « transexuel » (qui n’est plus utilisé par les personnes transgenre car il est négativement connoté) donne en traduction « c’est ce que Matt a dit l’autre jour pour expliquer pourquoi il a frappé un transexuel ».

Les mots « lesbienne » ou « gay » sont aussi suivis de phrases LGBTphobes, laissant penser que les gay sont « possédés » et que les médecins sont des « prostituées lesbiennes ».

La Licra avait interpellé Reverso sur Twitter pour ses propres découvertes. « Une réponse est attendue vite », a écrit la Ligue, qui a dit avoir saisi sa commission juridique « afin d’examiner si des poursuites pénales sont envisageables ». Reverso a réagi en présentant ses excuses pour des exemples jugés inacceptables.

@Reverso_ est désolé de la visibilité d'exemples inacceptables. Ils ne sont plus visibles sur des recherches normales et nous lançons de nouveaux filtres. — Reverso (@Reverso_) March 1, 2019

Des résultats liés à la manière dont fonctionne le site

Le site a par ailleurs expliqué qu’il s’agissait d’un problème d’ordre « technique ». Les phrases proposées pour contextualiser les termes recherchés proviennent « de livres, de films, et ne sont pas revus manuellement », a indiqué Reverso.

Nous sommes désolés, les exemples proviennent de livres, de films, et ne sont pas revus manuellement. Tous les exemples signalés incorrects seront supprimés de la prochaine version, d'ici un mois normalement. — Reverso (@Reverso_) February 28, 2019

Reverso aspire en effet des données venant de textes comme des livres ou des documents officiels rendus publics et mis à disposition sur Internet. Ce procédé est souvent utilisé dans le cadre des traductions, pour entraîner des algorithmes par exemple.

Théo Hoffenberg, le PDG de Reverso, a indiqué au Monde que certains films comme Inglourious Basterds comprenaient des phrases qui, hors contexte, sont très problématiques.

Selon lui, il serait impossible de filtrer manuellement toutes les phrases car il y a sur Reverso « plus de 80 combinaisons de langues et 100 millions d’exemples [de courtes phrases] par langue ». Seul un filtrage automatique, grâce à des algorithmes, est effectué. Il ajoute que Reverso supprime régulièrement (tous les 3 mois environ) les résultats racistes, antisémites ou autres qui lui sont signalés. Les exemples comme celui de la Lica arriveraient très rarement : il évoque 2 cas en 5 ans. Les exemples que nous avons trouvés sont pourtant nombreux.

Au téléphone, Reverso a expliqué à Numerama que les phrases mises en avant par la Licra avaient été retirées immédiatement, et que l’entreprise travaillait sur une nouvelle méthode de filtrage qu’elle pourrait mettre en place afin d’éviter que ceci se reproduise.

Il n’empêche que pour lutter contre tous les nouveaux exemples, il faudrait que Reverso revoie plus largement son fonctionnement, quitte à ajouter une étape de modération plus stricte, par des humains, qui coûterait certes plus cher, mais permettrait de ne pas partager librement des discours offensants, voire punis par la loi.