Publié le 26 octobre 2013 à 14h38

Google veut des CAPTCHAS lisibles par les humains uniquement

Temps de lecture : 2 min

Contre les automates, les sites web utilisent des tests de CAPTCHA. Or, les progrès en informatique permettent aux bots de contourner plus facilement le dispositif. Mais à force de le complexifier, il est devenu par moment inutilisable par un humain. Aussi Google élabore-t-il une nouvelle approche.

Le CAPTCHA, vous connaissez ? Il s'agit d'un test invitant le visiteur d'un site web à saisir correctement une suite de caractères présentés à l'écran d'une manière déformée afin de vérifier que celui-ci est bien une personne et non un automate. L'objectif du CAPTCHA est évident : il s'agit de tenir à l'écart les robots informatiques configurés pour effectuer une activité malveillante (comme du spam).

Au début, il n'était pas nécessaire de tordre excessivement les caractères du CAPTCHA pour bloquer la nuisance des automates. Mais avec le progrès technologique, les robots ont montré qu'ils parvenaient à interpréter de plus en plus rapidement les symboles du CAPTCHA. Il a fallu alors complexifier le processus par divers moyens (nouveaux symboles, imbrication, fond dégradé, ajout de "leurres"…).

Évidemment, ce qui devait arriver arriva : certains CAPTCHAS sont indéchiffrables, même pour un humain. Soit parce que la présentation des caractères est illisible, soit parce que des symboles difficilement reproductibles au clavier sont proposés. Une recherche dans une banque d'images permet de constater l'existence de CAPTCHAS inutilisables.

Complexifier le CAPTCHA pour distinguer l'humain de l'automate n'est donc plus la bonne voie à suivre. Il faut opter pour une nouvelle approche qui permette toujours de bloquer les bots informatiques sans pénaliser l'activité des internautes. Et justement, Google affirme avoir une solution. La firme de Mountain View, qui a acheté le système reCAPTCHA en 2009, a écrit un billet de blog pour la présenter.

Selon les explications de Google, "la mise à jour du dispositif implique des techniques avancées d'analyse des risques, en considérant activement l'activité de l'usager avec le CAPTCHA – avant, pendant et après avoir interagi avec". Autrement dit, si reCAPTCHA détecte ce qu'il pense être un humain, il proposera un CAPTCHA facilement déchiffrable. Si c'est un bot, le CAPTCHA sera "considérablement plus difficile" à traiter.

Google ajoute que la mise à jour implique "différentes catégories de CAPTCHA" qui seront utilisées selon le type d'utilisateur. "Cette approche multi-facettes nous permet de déterminer si un utilisateur potentiel est en fait un être humain ou non". Sur la capture d'écran fournie par Google, le CAPTCHA destiné aux humains montre deux nombres qui ne présentent aucune difficulté à la lecture.

Inventé par des chercheurs de l'université Carnegie-Mellon, le système reCAPTCHA a l'intelligence de faire d'une pierre deux coups. En plus de combattre les automates, il sert à améliorer par la même occasion le processus de numérisation de livres, là où échouent les systèmes de reconnaissance optique de caractères (OCR), en transmettant les lettres et les mots qui ne sont pas compris par les logiciels OCR.