Google souhaite normaliser la manière dont se déroule l’indexation du web. Pour cela, la société américaine propose de créer un standard et annonce la mise à disposition en open source d’un de ses outils.

Google lève un peu le voile sur la manière dont il indexe le web. Non pas en détaillant les subtilités de son algorithme de tri, qui est son secret industriel le plus précieux pour éviter les abus, mais en ouvrant le code source d’un outil qui lui sert à parcourir le net. C’est avec lui que Google alimente son moteur de recherche, en cherchant de nouveaux contenus à référencer, et en actualisant les informations qu’il possède déjà.

Faite le 1er juillet, l’annonce s’inscrit dans un objectif plus ambitieux encore. Il s’agit de faire du protocole d’exclusion des robots un standard du net. Aussi, pour accompagner cette démarche, la firme de Mountain View a décidé d’apporter sa propre pierre à l’édifice en mettant à disposition son savoir-faire « Nous avons beaucoup appris sur la façon dont les webmasters écrivent les fichiers robots.txt », explique Google.

google pc

Le moteur de recherche Google.

Des robots d’indexation ?

Avant d’aller plus loin, il faut certainement éclaircir cette histoire de robots.

Pour indexer le web et avoir des résultats à proposer aux internautes, les moteurs de recherche ne parcourent évidemment pas les pages manuellement. Tout est automatisé grâce à l’emploi de programmes, qu’on appelle robots d’indexation. Ils ont pour rôle de passer d’une page à l’autre pour trouver des contenus à référencer et de voir également s’il y a du nouveau à prendre en compte.

Ces logiciels sont toutefois susceptibles de recevoir des instructions de la part des sites web qu’ils visitent. c’est là qu’entre en jeu le fichier d’exclusion « robots.txt ». En principe, les robots d’indexation le consultent au moment d’entrer sur le site web pour savoir ce qu’il est possible de faire et ce qui est interdit. Il est par exemple possible d’interdire l’accès à tous les robots ou à certains d’entre eux.

Standardiser un élément central du web

Sauf qu’aujourd’hui, Google suggère que cela va un peu dans tous les sens. Faute d’une vraie standardisation, qui permettrait d’avoir un cadre commun « les développeurs ont interprété le protocole quelque peu différemment au fil des ans ». Surtout, « il n’a pas été mis à jour pour couvrir les cas isolés actuels », ajoute Google. Pour l’entreprise, cela pose un souci pour rédiger des règles correctement.

C’est embêtant lorsque l’on sait que ce protocole est depuis 25 ans « l’un des éléments les plus centraux et critiques du web », observe Google.

C’est pour redresser le tir que le géant du net, avec le concours de Martijn Koster, un webmaster qui a été le premier à écrire des règles pour organiser la venue des robots d’indexation sur son site, d’autres responsables de sites et des moteurs de recherche ont documenté le protocole d’exclusion des robots et son usage pour le web d’aujourd’hui, et que le tout a été transmis à l’IETF.

L’IETF, acronyme de Internet Engineering Task Force, est une structure qui a pour mission de normaliser les protocoles sur le net.

Ben Campbell

Réunion de l'IETF à Prague

Source : Ben Campbell

De nouvelles règles et des précisions

Selon Google, le document « reflète plus de 20 ans d’expérience de l’utilisation des règles robots.txt, utilisées à la fois par Googlebot et d’autres grands robots, ainsi que par environ un demi-milliard de sites Web qui comptent sur ce protocole ». L’entreprise assure que les bases jetées en 1994 demeurent, mais que le document complète et étend les règles en traitant des cas de figure oubliés.

Par exemple, la firme de Mountain View indique que la spécification prévoit que lorsqu’un fichier robots.txt auparavant accessible devient inaccessible en raison d’une panne de serveur, les pages interdites connues ne sont pas explorées pendant une période de temps raisonnablement longue. D’autres exemples de cas de figure plus techniques sont mis en avant par l’entreprise sur son blog.

Il reste désormais à attendre de savoir quel sera le parcours de la proposition de Google au sein de l’IETF.

La démarche apparaît vertueuse : plutôt que chacun interprète dans son coin les fichiers d’exclusion, ce qui peut avoir pour effet de provoquer des écarts d’un moteur de recherche à l’autre, mieux vaut se doter d’une même grille de lecture pour scanner finement et proprement le web, en tenant compte des souhaits des responsables de sites web et en leur fournissant de nouvelles règles.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+

Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !