Android et ses étranges listes de mots obscènes, racistes, vulgaires...

Le code source d'Android contient une liste de mots, dont quatre catégories sont identifiées par des "flags" spécifiques : obscénités, vulgarité, racisme, pédophilie. A quelles fins ?

C'est la curiosité du jour, découverte par Gildas Ribot sur les forums de Numerama. En fouillant le code source d'Android, Gildas a remarqué qu'Android utilisait un dictionnaire de mots, matérialisé dans le fichier fr-wordlist.combined, ce qui jusqu'ici n'a rien d'anormal. Il est en effet nécessaire aux correcteurs orthographiques et autres saisies semi-automatiques avec le clavier virtuel du système d'exploitation. Mais ce qui est plus surprenant, c'est que Google a classé l'ensemble des mots du dictionnaire en cinq catégories de mots, dont quatre catégories spéciales signalées par quatres "flags" différents, qui semblent être :

"n" : mots obscènes
"e" : mots racistes, xénophobes ou homophobes
"p" : mots pédophiles
"r" : mots vulgaires

Pour le moment, on ne sait rien des raisons pour lesquelles ces flags existent dans le code source d'Android, et ce qui a motivé de séparer par exemple les termes à connotation pédophile et raciste, alors qu'ils auraient pu être regroupés dans une même catégorie de termes dont l'utilisation pose un risque pénal. On ne sait pas non plus si ces flags sont exploités par Google, ou s'ils ont juste été créés en prévision d'un éventuel filtrage (activation d'un filtrage parental par exemple).

Ces listes montrent, en tout état de cause, ce que Google pourrait considérer comme de la vulgarité à surveiller dans les Hangouts, ou sur quelles bases les "recherches dépravées" pourraient être bloquées. Les plus paranoïaques se diront que la liste peut être utilisée pour établir un profil psychologique de l'utilisateur, en fonction de la fréquence d'utilisation des mots de chaque catégorie.

Ainsi par exemple, dans les mots prétendument obscènes, on retrouve des termes comme "allaitement", "amateurs", "bisexuel", "charnel", "exposée", "lactation", "libido", "nudité", "postérieur", "professionnelle", "relation", "sein", ou encore "volage". Des termes qui sont sans doute moins destinés à être censurés qu'à détecter par associations la nature du contenu d'une page visitée par l'internaute.

De même dans les termes racistes, xénophobes ou homophobes, on retrouve des mots comme "caillera" (ou "racaille"), "crépu", "frisé", "israélite", "judas", "négritude", "néonazi", "swastika", "tante", ou "épuisé" (?).

Dans les termes pédophiles, on retrouve exclusivement les termes qualificatifs "pédophile", "pédophilie", "pédéraste", "pédérastes", et "pédérastie". Pourquoi leur avoir consacré une catégorie à part entière ?

Enfin, la liste des mots "vulgaires" comprend des termes dont il faut vraiment chercher la vulgarité, comme "boute-en-train", "blasé", "castration", "fessier", "marteau", "maudit", "timbré", "trou", ou "énervé".

S'il se trouve parmi vous des développeurs capables de voir dans quel contexte ces flags sont utilisés par Android, n'hésitez pas à nous le faire savoir.

Mise à jour : Samuel Tardieu apporte une première explication possible sur Twitter :

@gchampeau @Numerama @Giribot On peut, au moins sous KitKat, faire de la reconnaissance vocale off-line, et les mots offensants sont coupés.

— Samuel Tardieu (@rfc1149) 3 Décembre 2013

@gchampeau @Numerama @Giribot Le choix de mots étoilés (***) ou non est aussi possible dans les préférences.

— Samuel Tardieu (@rfc1149) 3 Décembre 2013

@gchampeau @Numerama @Giribot Paramètres / Langue et saisie / Recherche vocale / Bloquer terme choquants.

— Samuel Tardieu (@rfc1149) 3 Décembre 2013

@gchampeau @Numerama @Giribot Et … / Recherche vocale / Reconnaissance vocale hors connexion (ici se passe le choix des packs de langue)

— Samuel Tardieu (@rfc1149) 3 Décembre 2013

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !