Le code source d'Android contient une liste de mots, dont quatre catégories sont identifiées par des "flags" spécifiques : obscénités, vulgarité, racisme, pédophilie. A quelles fins ?

C'est la curiosité du jour, découverte par Gildas Ribot sur les forums de Numerama. En fouillant le code source d'Android, Gildas a remarqué qu'Android utilisait un dictionnaire de mots, matérialisé dans le fichier fr-wordlist.combined, ce qui jusqu'ici n'a rien d'anormal. Il est en effet nécessaire aux correcteurs orthographiques et autres saisies semi-automatiques avec le clavier virtuel du système d'exploitation. Mais ce qui est plus surprenant, c'est que Google a classé l'ensemble des mots du dictionnaire en cinq catégories de mots, dont quatre catégories spéciales signalées par quatres "flags" différents, qui semblent être :

  • "n" : mots obscènes
  • "e" : mots racistes, xénophobes ou homophobes
  • "p" : mots pédophiles
  • "r" : mots vulgaires

Pour le moment, on ne sait rien des raisons pour lesquelles ces flags existent dans le code source d'Android, et ce qui a motivé de séparer par exemple les termes à connotation pédophile et raciste, alors qu'ils auraient pu être regroupés dans une même catégorie de termes dont l'utilisation pose un risque pénal. On ne sait pas non plus si ces flags sont exploités par Google, ou s'ils ont juste été créés en prévision d'un éventuel filtrage (activation d'un filtrage parental par exemple).

Ces listes montrent, en tout état de cause, ce que Google pourrait considérer comme de la vulgarité à surveiller dans les Hangouts, ou sur quelles bases les "recherches dépravées" pourraient être bloquées. Les plus paranoïaques se diront que la liste peut être utilisée pour établir un profil psychologique de l'utilisateur, en fonction de la fréquence d'utilisation des mots de chaque catégorie.

Ainsi par exemple, dans les mots prétendument obscènes, on retrouve des termes comme "allaitement", "amateurs", "bisexuel", "charnel", "exposée", "lactation", "libido", "nudité", "postérieur", "professionnelle", "relation", "sein", ou encore "volage". Des termes qui sont sans doute moins destinés à être censurés qu'à détecter par associations la nature du contenu d'une page visitée par l'internaute.

De même dans les termes racistes, xénophobes ou homophobes, on retrouve des mots comme "caillera" (ou "racaille"), "crépu", "frisé", "israélite", "judas", "négritude", "néonazi", "swastika", "tante", ou "épuisé" (?).

Dans les termes pédophiles, on retrouve exclusivement les termes qualificatifs "pédophile", "pédophilie", "pédéraste", "pédérastes", et "pédérastie". Pourquoi leur avoir consacré une catégorie à part entière ?

Enfin, la liste des mots "vulgaires" comprend des termes dont il faut vraiment chercher la vulgarité, comme "boute-en-train", "blasé", "castration", "fessier", "marteau", "maudit", "timbré", "trou", ou "énervé".

S'il se trouve parmi vous des développeurs capables de voir dans quel contexte ces flags sont utilisés par Android, n'hésitez pas à nous le faire savoir.

Mise à jour : Samuel Tardieu apporte une première explication possible sur Twitter :

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : faire comprendre le numérique et tous ses enjeux au plus grand nombre.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+

Abonnez-vous à Numerama sur Google News pour ne manquer aucune info !