2 500 pages d’un document interne à Google ont fuité. Elles dévoilent les secrets de l’algorithme de Google Search, qui fait régner sa loi sur Internet depuis plusieurs décennies. Après avoir initialement gardé le silence, l’entreprise confirme que cette fuite est authentique.

Le moteur de recherche de Google a rarement autant fait parler de lui.

Quelques semaines après que Google a annoncé une transformation majeure du service qui l’a fait connaître avec des résumés des résultats par une intelligence artificielle (des résumés qui lui valent d’ailleurs une vive critique), l’entreprise est victime d’une fuite inédite.

Depuis le 28 mai, un document de 2 500 pages dit contenir les secrets de l’algorithme de Google Search. Il y dévoile la méthode de tri du moteur de recherche quand vous saisissez une requête. Un secret qui pèse lourd sur Internet, au vu de l’influence de Google sur les audiences d’un site web. Rand Fishkin, un expert du SEO (l’optimisation d’une page pour les moteurs de recherche), dit avoir reçu ce mystérieux document d’une source anonyme le 5 mai 2024. La prudence était d’abord de mise, mais Google a confirmé son authenticité.

Les résultats Google bientôt manipulés ?

Dans le document de 2 500 pages, on trouve surtout des détails techniques. Le grand public ne devrait pas y trouver un intérêt, mais les spécialistes du SEO vont sûrement l’utiliser pour mieux comprendre les priorités de Google lorsqu’il choisit de mettre en avant un site.

Sur certains aspects, le document montre que Google n’a pas toujours été très honnête. L’entreprise dit ne pas collecter les données de son navigateur Chrome et ne pas classer les auteurs d’articles selon un degré de fiabilité, mais son algorithme dit qu’elle le fait. Chrome enverrait à Google la liste des sites les plus populaires, pour que le moteur de recherche les mette en avant.

Pourquoi Google choisit un site plutôt qu’un autre ? C’est le mystère de son algorithme. // Source : Capture Numerama

Parmi les révélations de ce document, on découvre plusieurs termes techniques utilisés par Google pour classer le web. On apprend, par exemple, que la technologie NavBoost mesure les clics et le taux d’engagement, que des évaluations humaines permettent à un site de gagner en fiabilité et que des listes blanches existent pour des sujets importants (le covid par exemple). L’âge d’un nom de domaine servirait également à estimer sa fiabilité, au même titre que la renommée de sa marque.

À l’opposé, certaines données du document laissent penser que de nombreux experts du SEO surestiment certaines optimisations. Le E-E-A-T, (pour expérience, expertise, autorité et fiabilité) n’aurait pas l’importance considérée jusque-là par les spécialistes du moteur de recherche. Rand Fishkin recommande aux experts du milieu d’étudier le document pour comprendre ce que fait vraiment Google, au lieu de se fonder sur les déclarations du groupe.

Google confirme la fuite, mais entretient le doute sur son obsolescence

Dans un mail envoyé à certains médias américains, comme The Verge, Google confirme l’authenticité du document, tout en mettant en avant le fait qu’il ne faut pas se baser seulement sur ces 2 500 pages. « Nous mettons en garde contre les suppositions inexactes sur le fonctionnement de la recherche basées sur des informations hors contexte, obsolètes ou incomplètes », déclare un porte-parole de l’entreprise.

« Nous avons partagé de nombreuses informations sur le fonctionnement de la recherche et les types de facteurs pris en compte par nos systèmes, tout en travaillant à protéger l’intégrité de nos résultats contre toute manipulation », complète Google, qui laisse supposer que toute la vérité sur son algorithme PageRank n’est pas dans ce document, ou que des choses ont peut-être changé depuis.

Le document ressemble à ça. Il faut maîtriser le code pour l’analyser. // Source : Spartoro

Maintenant qu’ils ont accès à ces très nombreuses données, les spécialistes du SEO vont pouvoir mener des expérimentations pour tenter de manipuler l’algorithme de Google. Le risque est de voir certains sites profiter de la brèche et en paralyser les autres, en attendant que Google ne change une nouvelle fois son algorithme. C’est aussi un des mystères du web : pourquoi Google change si souvent son système de tri des sites web ?

