Pour éviter de voir leurs sites inondés de commentaires générés par des robots destinés au spam, de nombreux sites internet et blogs utilisent des systèmes dits de « captcha », qui obligent l’utilisateur à reconnaître des mots ou des chiffres difficilement déchiffrables par un logiciel. L’outil le plus populaire pour ce faire est offert par Google. Il s’agit de Recaptcha, que Google exploite avec beaucoup d’intelligence pour l’aider à numériser les livres qu’il trouve dans les bibliothèques.

En effet, Recaptcha affiche systématiquement deux mots à déchiffrer, issus des pages numérisées qu’il archive. L’un qu’il connaît, et l’autre qu’il ignore. Cette astuce lui permet de déléguer aux millions d’internautes la transcription des mots que ses logiciels de reconnaissance de caractères (OCR) n’arrivent pas à saisir, tandis que l’autre lui permet d’évaluer la crédibilité de la proposition rentrée. Avec ce système ingénieux, Google améliore très sensiblement ses algorithmes d’OCR, pour un coût dérisoire.

Désormais, le nombre de mots qu’il n’arrive pas à déchiffrer est sans doute très faible. Google cherche donc à recycler l’idée pour d’autres finalités, ce qu’il commence à faire avec Google Street View. Plutôt que d’afficher toujours deux mots, Recaptcha peut désormais afficher un mot (pour la crédibilité) et l’image d’une plaque de numéro de maison, d’immeuble ou de commerce. Cette solution lui permet d’affiner sa connaissance des rues, pour situer précisément les adresses entrées dans Google Maps.

Quant aux spammeurs, l’utilisation des Captcha les oblige désormais à rémunérer des internautes pour les contourner.

Partager sur les réseaux sociaux

Articles liés