Comment Google exploite le spam pour améliorer Google Maps

Guillaume Champeau - publié le Vendredi 30 Mars 2012 à 17h31 - posté dans High-Tech

Pour éviter de voir leurs sites inondés de commentaires générés par des robots destinés au spam, de nombreux sites internet et blogs utilisent des systèmes dits de "captcha", qui obligent l'utilisateur à reconnaître des mots ou des chiffres difficilement déchiffrables par un logiciel. L'outil le plus populaire pour ce faire est offert par Google. Il s'agit de Recaptcha, que Google exploite avec beaucoup d'intelligence pour l'aider à numériser les livres qu'il trouve dans les bibliothèques.

En effet, Recaptcha affiche systématiquement deux mots à déchiffrer, issus des pages numérisées qu'il archive. L'un qu'il connaît, et l'autre qu'il ignore. Cette astuce lui permet de déléguer aux millions d'internautes la transcription des mots que ses logiciels de reconnaissance de caractères (OCR) n'arrivent pas à saisir, tandis que l'autre lui permet d'évaluer la crédibilité de la proposition rentrée. Avec ce système ingénieux, Google améliore très sensiblement ses algorithmes d'OCR, pour un coût dérisoire.

Désormais, le nombre de mots qu'il n'arrive pas à déchiffrer est sans doute très faible. Google cherche donc à recycler l'idée pour d'autres finalités, ce qu'il commence à faire avec Google Street View. Plutôt que d'afficher toujours deux mots, Recaptcha peut désormais afficher un mot (pour la crédibilité) et l'image d'une plaque de numéro de maison, d'immeuble ou de commerce. Cette solution lui permet d'affiner sa connaissance des rues, pour situer précisément les adresses entrées dans Google Maps.

Quant aux spammeurs, l'utilisation des Captcha les oblige désormais à rémunérer des internautes pour les contourner.

Publié par Guillaume Champeau, le 30 Mars 2012 à 17h31
 
 
19
Commentaires à propos de «Comment Google exploite le spam pour améliorer Google Maps»
 
Inscrit le 23/02/2011
409 messages publiés
Je trouve l'idée excellente, ça nous coute rien de plus et ça améliore la base de donnée
Inscrit le 05/09/2009
230 messages publiés
Ah, ça explique peut être pourquoi. Il y a pas longtemps. j'avais un mot complètement illisible. je l'ai donc ignoré et tapé le premier. J'suis passé quand même avec un mot sur les deux.
Je fais remarquer à google (s'ils lisent numérama)... Qu'il font chier a mettre ces MERDE illisible les 3/4 du temps.
[message édité par alex10336 le 30/03/2012 à 18:11 ]
Inscrit le 18/06/2011
866 messages publiés
Maintenant qu'on le sait que seul le 2e mot compte on peut remplir les captcha plus rapidement... ou saborder leur base de donné
Inscrit le 16/08/2010
1280 messages publiés
Nyn, le 30/03/2012 - 19:26
Maintenant qu'on le sait que seul le 2e mot compte on peut remplir les captcha plus rapidement... ou saborder leur base de donné

ne casse pas le boulot en vendant la mèche, c'est exactement ce que je fais
Si ils ont utilisé "mes" reconnaissances pour leurs traductions, j'aimerais beaucoup lire le texte final.
Inscrit le 01/03/2006
4784 messages publiés
Nyn, le 30/03/2012 - 19:26
Maintenant qu'on le sait que seul le 2e mot compte on peut remplir les captcha plus rapidement... ou saborder leur base de donné

Ne le prends pas pour toi, car nombreux sont ceux à faire la même affirmation que toi (en particulier Jumbo ci-dessus qui en semble même fier), mais:
- la première partie de ta phrase montre toujours cet égoïste rampant où plus personne ne veut aider personne, même pour 1 ou 2 secondes de temps.
- la deuxième partie me redonne le sourire par la naïveté qu'elle contient.
Inscrit le 20/12/2010
77 messages publiés
Nyn, le 30/03/2012 - 19:26
Maintenant qu'on le sait que seul le 2e mot compte on peut remplir les captcha plus rapidement... ou saborder leur base de donné

ne casse pas le boulot en vendant la mèche, c'est exactement ce que je fais
Si ils ont utilisé "mes" reconnaissances pour leurs traductions, j'aimerais beaucoup lire le texte final.


Mais dis moi jeune homme, tu fais grandement pitié, non ?

C'est très intelligent de leur part d'utiliser ça pour numériser les livres et c'est très très con de ta part de faire de la merde avec (mais rassure toi, ta bêtise n'a aucun impact sur les traductions).
Inscrit le 05/09/2002
2401 messages publiés
WickedFaith, le 30/03/2012 - 19:42
Nyn, le 30/03/2012 - 19:26
Maintenant qu'on le sait que seul le 2e mot compte on peut remplir les captcha plus rapidement... ou saborder leur base de donné

Ne le prends pas pour toi, car nombreux sont ceux à faire la même affirmation que toi (en particulier Jumbo ci-dessus qui en semble même fier), mais:
- la première partie de ta phrase montre toujours cet égoïste rampant où plus personne ne veut aider personne, même pour 1 ou 2 secondes de temps.
- la deuxième partie me redonne le sourire par la naïveté qu'elle contient.



Heuu, je ne vois pas pourquoi on devrait aider une entreprise PRIVEE qui ne nous rémunère pas à gagner du pognon avec NOTRE temps hein...


Si ils veulent de l'aide, qu'ils payent, vu que c'est pour se faire du pognon derrière.

Ce n'est pas un projet de cartographie du génome dont les résultats sont dans le domaine public ou un truc du genre, c'est des résultats qui servent à Google à SE FAIRE DU POGNON et qui donc ne mérite aucune aide.

Sans parler du fait que ça rend leur système de captchat tout pourri parce que la moitié du truc est facilement identifiable (même par les bots) et de l'ocr basique, l'autre moitié on peut mettre n'importe quoi vu qu'il ne le checke pas, il fait juste une entrée dans une base pour arrivée à suffisement de réponses identiques pour que ce soit jugé "fiable".....
Inscrit le 23/12/2011
236 messages publiés
Sauf que les bots galèrent avec ReCaptcha justement.

Tu veux te faire rémunérer ton "temps" ? Tu gagneras donc ... 1 ct par ReCaptcha (à 10 € de l'heure, et à 5 sec par ReCaptcha). Même en, téléchargeant comme un proc (bon courage sans MU), ça va être compliqué d'être riche ...

Je rappelle au passage que Google signe des accord avec des sociétés comme la BNF. Une partie de son travail de numérisation va sauver des millions d'ouvrages de la destruction.
Inscrit le 05/09/2002
2401 messages publiés
neeko, le 30/03/2012 - 20:32
Sauf que les bots galèrent avec ReCaptcha justement.

Tu veux te faire rémunérer ton "temps" ? Tu gagneras donc ... 1 ct par ReCaptcha (à 10
€ de l'heure, et à 5 sec par ReCaptcha). Même en, téléchargeant comme un proc (bon courage sans MU), ça va être compliqué d'être riche ...

Je rappelle au passage que Google signe des accord avec des sociétés comme la BNF. Une partie de son travail de numérisation va sauver des millions d'ouvrages de la destruction.



Ca ne change rien au fait qu'il n'y a AUCUNE raison de bosser gratuitement pour qu'une boîte privée se fasse du pognon.

Et ce n'est pas bénévolement que Google numérise les ouvrages de la bnf non plus.....
Inscrit le 30/03/2012
1 messages publiés
Ouais, enfin tu ne vois pas bien loin Ashareth. Recaptcha est un système efficace contre le SPAM, ceux qui veulent le mettre en place sur leur site n'ont pas à débourser un seul centime alors que cela a quand même un coût pour Google (des serveurs capables d'envoyer les images aux sites et de valider si le mot est correcte ou non)

Pour le webmaster c'est un service efficace qu'il ne paye pas, en échange il offre à Google quelques secondes du temps de ses utilisateurs pour faire de la reconnaissance de texte. L'utilisateur lui a en échange accès à la fonctionnalité du site qui requiert un captcha (comme laisser un commentaire par exemple) la plupart du temps c'est une fonctionnalité gratuite et elle permet une meilleur qualité du site en évitant les SPAM dans le contenu.

Au final tout le monde est gagnant, l'utilisateur, le webmaster et Google. Enfin sauf toi et on ne comprend pas trop pourquoi...
[message édité par tachykolipuke le 30/03/2012 à 23:48 ]
Inscrit le 01/03/2006
4784 messages publiés
Ashareth, le 30/03/2012 - 22:20
Ca ne change rien au fait qu'il n'y a AUCUNE raison de bosser gratuitement pour qu'une boîte privée se fasse du pognon.

Et ce n'est pas bénévolement que Google numérise les ouvrages de la bnf non plus.....

lol !
Au cas où tu ne le saurais pas, en lisant et en postant sur Numérama, tu bosses gratuitement pour une boite privée
Mais bon, chuuttt... Je ne voudrais pas casser tes illusions.
Inscrit le 22/09/2006
45 messages publiés
Bienvenus dans le web 2.0 ! àa fait un moment maintenant que tout le monde "bosse" pour des Google, Facebook etc., en leur fournissant l'essence de ce qui les valorises : le contenu (et les visiteurs qui vont avec)
Inscrit le 31/03/2012
1 messages publiés
Loin de moi l'idée de défendre ces grandes entreprises qui exploitent les internautes... mais force est de constater que dans les exemples cités par marcogringo, il y a un autre point commun que celui d'utiliser les contenus générés par les utilisateurs : la gratuité du service.

C'est justement ça le web 2.0 : fait par les internautes, et du coup gratuit.

Wikipedia : fait par les internautes, gratuit. Avant on achetait une encyclopédie, faite par des pros, mais qu'on payait cher du coup.
Pareil pour Tomtom : c'est fait par des pros, c'est payant. Google Maps : crowdsourcing, gratuit.

Je pourrais continuer la liste jusqu'à plus soif mais vous m'avez compris !

Je travaille personnellement pour Captch Me, régie qui propose des captchas publicitaires.
Certains vont crier à l'hérésie et dire qu'on les exploite pour pouvoir rémunérer les webmasters. Mais c'est justement pour que ces mêmes webmasters puissent proposer des contenus gratuits !!
[message édité par Jérémie CaptchMe le 31/03/2012 à 00:38 ]
Inscrit le 19/05/2011
621 messages publiés
Ashareth, le 30/03/2012 - 22:20
neeko, le 30/03/2012 - 20:32
Sauf que les bots galèrent avec ReCaptcha justement.

Tu veux te faire rémunérer ton "temps" ? Tu gagneras donc ... 1 ct par ReCaptcha (à 10

€ de l'heure, et à 5 sec par ReCaptcha). Même en, téléchargeant comme un proc (bon courage sans MU), ça va être compliqué d'être riche ...

Je rappelle au passage que Google signe des accord avec des sociétés comme la BNF. Une partie de son travail de numérisation va sauver des millions d'ouvrages de la destruction.



Ca ne change rien au fait qu'il n'y a AUCUNE raison de bosser gratuitement pour qu'une boîte privée se fasse du pognon.

Et ce n'est pas bénévolement que Google numérise les ouvrages de la bnf non plus.....


Par contre tu vois, je suppose, sans problème le fait qu'une entreprise PRIVEE se mette a disposition gratuitement le meilleur moteur de recherche, une espace de partage et de stockage de documents, un agenda, un systeme de cartographie, de navigation, un OS et j'en passe ? Oui, google se fait du pognon. C'est même le but pour toute entreprise, comme ton boulanger au coin de ta rue. Non ce n'est pas sur ton "dos", car elle t'offre des services que tu ne paie pas.
Inscrit le 05/09/2002
2401 messages publiés
Mehmnoch, le 31/03/2012 - 11:02
Ashareth, le 30/03/2012 - 22:20
neeko, le 30/03/2012 - 20:32
Sauf que les bots galèrent avec ReCaptcha justement.

Tu veux te faire rémunérer ton "temps" ? Tu gagneras donc ... 1 ct par ReCaptcha (à 10


€ de l'heure, et à 5 sec par ReCaptcha). Même en, téléchargeant comme un proc (bon courage sans MU), ça va être compliqué d'être riche ...

Je rappelle au passage que Google signe des accord avec des sociétés comme la BNF. Une partie de son travail de numérisation va sauver des millions d'ouvrages de la destruction.



Ca ne change rien au fait qu'il n'y a AUCUNE raison de bosser gratuitement pour qu'une boîte privée se fasse du pognon.

Et ce n'est pas bénévolement que Google numérise les ouvrages de la bnf non plus.....


Par contre tu vois, je suppose, sans problème le fait qu'une entreprise PRIVEE se mette a disposition gratuitement le meilleur moteur de recherche, une espace de partage et de stockage de documents, un agenda, un systeme de cartographie, de navigation, un OS et j'en passe ? Oui, google se fait du pognon. C'est même le but pour toute entreprise, comme ton boulanger au coin de ta rue. Non ce n'est pas sur ton "dos", car elle t'offre des services que tu ne paie pas.


Gratuitement ? Ah bon ? Et moi qui croyait bêtement que tous ces services étaient financés par la pub qu'ils me balancent en permanence.

On ne doit pas avoir la même définition de "gratuit".


Nous faire faire un boulot qu'elle devrait payer pour faire faire, c'est autre chose, et plus du tout la même optique (ni le même problème).
Inscrit le 18/07/2011
101 messages publiés
Exploitation lol

J'y vois une synergie.

Si les industries du divertissement comprenaient aussi bien le web que Google, il n'y aurait pas ces combats inutiles
Inscrit le 20/09/2011
5137 messages publiés
Bravo Google ! Arriver à faire bosser les gens sans les payer, mais en plus sans qu'ils se rendent compte qu'ils bossent pour Google, c'est du grand art.

Dire qu'il suffirait qu'ils mettent juste une phrase expliquant leur démarche pour que les gens y adhèrent. Mais non, comme toujours avec Google, rien n'est jamais franc.

Non ce n'est pas sur ton "dos", car elle t'offre des services que tu ne paie pas.

Si tu ne vois que cet aspect des choses, tu as raison. Mais si tu commences à regarder tout ce que Google recueille comme information sur toi et comment ils s'en servent pour vendre cette information, alors là, tu rigoles un peu moins. Google, entreprise privée, se permet de faire des choses que la majorité des internautes n'approuveraient pas si c'était un Etat qui les faisait.
Inscrit le 25/08/2008
507 messages publiés
Nyn, le 30/03/2012 - 19:26
Maintenant qu'on le sait que seul le 2e mot compte on peut remplir les captcha plus rapidement... ou saborder leur base de donné

Sauf s'ils finissent par recouper ces données avec ce qu'ont répondu les autres utilisateurs, auquel cas c'est faisable le temps que le mot n'est pas reconnu par la machine mais une fois qu'il l'est car beaucoup d'utilisateurs ont répondu la même chose, tu dois rentrer la même chose que les autres.
Inscrit le 05/04/2013
1 messages publiés
Je suis convaincue qu' Ashareth n'a jamais utilisé Google Maps, ni aucun des services gratuits que Google met à la disposition des internautes... :ironyInside:
Personnellement, je n'ai pas honte de le dire : J'apprécie beaucoup les services de Google. Je ne dis pas qu'il faut ne jurer que par ça, mais ce sont des services bien conçus et utiles au quotidien...
Si leur intelligence peut leur faire gagner du temps et de l'argent, pourquoi s'en priver ? C'est le but premier d'une entreprise... Sinon ce serait "Google association loi 1901" (ce serait marrant remarquez...).
Envoyer

Tous les champs doivent être remplis.

Tous les champs doivent être remplis.

Tous les champs doivent être remplis.

Télécharger
PC Speed Maximizer
Optimisation - Nettoyez efficacement votre ordinateur.
 
iCare Data Recovery Software
Restauration - Récupérez vos données effacées
 
NovaPDF
Texte et tableurs - Sauvegarde en PDF
 
Magical Jelly Bean Keyfinder
Restauration - Retrouver la clé de Windows
 
Minipascal
Développement - Interface graphique Win32 pour FPC
 
Mars 2012
 
Lu Ma Me Je Ve Sa Di
27 28 29 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31 1
2 3 4 5 6 7 8
Matoumba
EntrepreNantes
Numerama est un site du réseau PressTIC