Le code source d'Android contient une liste de mots, dont quatre catégories sont identifiées par des "flags" spécifiques : obscénités, vulgarité, racisme, pédophilie. A quelles fins ?

C'est la curiosité du jour, découverte par Gildas Ribot sur les forums de Numerama. En fouillant le code source d'Android, Gildas a remarqué qu'Android utilisait un dictionnaire de mots, matérialisé dans le fichier fr-wordlist.combined, ce qui jusqu'ici n'a rien d'anormal. Il est en effet nécessaire aux correcteurs orthographiques et autres saisies semi-automatiques avec le clavier virtuel du système d'exploitation. Mais ce qui est plus surprenant, c'est que Google a classé l'ensemble des mots du dictionnaire en cinq catégories de mots, dont quatre catégories spéciales signalées par quatres "flags" différents, qui semblent être :

  • "n" : mots obscènes
  • "e" : mots racistes, xénophobes ou homophobes
  • "p" : mots pédophiles
  • "r" : mots vulgaires

Pour le moment, on ne sait rien des raisons pour lesquelles ces flags existent dans le code source d'Android, et ce qui a motivé de séparer par exemple les termes à connotation pédophile et raciste, alors qu'ils auraient pu être regroupés dans une même catégorie de termes dont l'utilisation pose un risque pénal. On ne sait pas non plus si ces flags sont exploités par Google, ou s'ils ont juste été créés en prévision d'un éventuel filtrage (activation d'un filtrage parental par exemple).

Ces listes montrent, en tout état de cause, ce que Google pourrait considérer comme de la vulgarité à surveiller dans les Hangouts, ou sur quelles bases les "recherches dépravées" pourraient être bloquées. Les plus paranoïaques se diront que la liste peut être utilisée pour établir un profil psychologique de l'utilisateur, en fonction de la fréquence d'utilisation des mots de chaque catégorie.

Ainsi par exemple, dans les mots prétendument obscènes, on retrouve des termes comme "allaitement", "amateurs", "bisexuel", "charnel", "exposée", "lactation", "libido", "nudité", "postérieur", "professionnelle", "relation", "sein", ou encore "volage". Des termes qui sont sans doute moins destinés à être censurés qu'à détecter par associations la nature du contenu d'une page visitée par l'internaute.

De même dans les termes racistes, xénophobes ou homophobes, on retrouve des mots comme "caillera" (ou "racaille"), "crépu", "frisé", "israélite", "judas", "négritude", "néonazi", "swastika", "tante", ou "épuisé" (?).

Dans les termes pédophiles, on retrouve exclusivement les termes qualificatifs "pédophile", "pédophilie", "pédéraste", "pédérastes", et "pédérastie". Pourquoi leur avoir consacré une catégorie à part entière ?

Enfin, la liste des mots "vulgaires" comprend des termes dont il faut vraiment chercher la vulgarité, comme "boute-en-train", "blasé", "castration", "fessier", "marteau", "maudit", "timbré", "trou", ou "énervé".

S'il se trouve parmi vous des développeurs capables de voir dans quel contexte ces flags sont utilisés par Android, n'hésitez pas à nous le faire savoir.

Mise à jour : Samuel Tardieu apporte une première explication possible sur Twitter :

Nouveauté : Découvrez

La meilleure expérience de Numerama, sans publicité,
+ riche, + zen, + exclusive.

Découvrez Numerama+

Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !