Le deep web rassemble tous les contenus créés, hébergés et échangés sur le web, mais qui ne sont pas indexés par les moteurs de recherche.

Le deep web, en somme, est un web caché. Mais, pour comprendre tout cela, il faut d’abord rappeler deux autres définitions : celle d’Internet et celle du web.

Qu’est-ce que le web visible ?

Internet est le réseau des réseaux, un espace qui lie entre eux réseaux privés, publics, à but non lucratif, et qui est complètement décentralisé. Une série de protocoles standardisés permet de l’utiliser pour échanger de l’information depuis à peu près n’importe où.

Si on l’imagine sous la forme d’un iceberg, une petite partie de ce vaste ensemble se trouve au-dessus du niveau de la mer : c’est le web, aussi appelé web visible ou de surface. Le world wide web est un système de pages publiques interconnectées entre elles (grâce aux liens hypertextes) et indexées dans les grands moteurs de recherche : c’est l’une des applications qui existent sur l’infrastructure qu’est Internet.

Selon Kaspersky, cet ensemble de pages, facilement accessibles grâce à des services comme Google, Bing ou DuckDuckGo, représente moins de 5 % du volume total des contenus hébergés et échangés grâce à Internet.

Qu’est-ce que le deep web ?

Sous la ligne de flottaison de l’iceberg, il existe un tas de pages auxquelles il n’est pas possible d’accéder depuis un moteur de recherche, car ces ressources ne sont pas indexées pour diverses raisons : ce peut être une instruction donnée par un site de ne pas référencer telle ou telle page. Ce peut être aussi des pages qui ne sont visibles qu’en se connectant.

Un exemple ? La page de votre boîte de réception de votre courrier électronique n’est pas sur Google. Idem pour votre compte en banque. Pourtant, ce sont bien des pages web, que vous consultez via un navigateur, mais on ne peut pas les trouver sur un moteur de recherche. Au mieux, on peut tomber sur une page de connexion, et c’est tout.

Internet,_web,_deepweb_et_darknets_illustrés
Une représentation des applications d’internet sous forme d’Iceberg. // Source : Wikimédia

Certaines de ces pages cachées sont vues quotidiennement par les internautes. Par conséquent, dans la représentation sous forme d’iceberg, on les place souvent juste sous la ligne de flottaison. Elles pourraient être comme du web visible, ou le web de surface, au même titre qu’un site lambda. Plus bas sur cette structure d’iceberg se trouvent toutes les pages, informations, données moins accessibles.

Pourquoi y a-t-il un web profond ?

Web de surface et web profond sont des vocables destinés à expliquer le rôle des moteurs de recherche et la nature des pages, car cela a une incidence sur la visibilité des contenus présents en ligne. Ce web profond constitue le point de convergence de plusieurs phénomènes qui n’ont pas nécessairement de points communs entre eux.

Une page web qui serait produite avec un langage informatique incompréhensible par un moteur de recherche est susceptible de ne pas être interprétée et, donc, de ne pas être référencée. Elle rentre alors de fait dans la catégorie du web profond. Idem pour les parties privées des sites web, comme son service de messagerie ou bien son compte en banque.

Une page web contenant des instructions pour ne pas être recensée par un moteur de recherche tombe aussi dans ce deep web. Idem pour une page mise en ligne, mais qui n’a pas de lien entrant vers elle. Les robots d’indexation de Google et des autres ne risquent pas de tomber dessus et de la proposer aux internautes, s’ils tapent les bons mots-clés.

En clair, le web profond est né parce que les moteurs de recherche ne voient pas tout du web. Le deep web est, par conséquent, une catégorie hétérogène. Certaines de ces pages pourraient être indexées, si certains paramètres évoluaient. D’autres ne sont tout simplement pas à portée, quoiqu’il arrive. Il y a aussi les limites propres aux robots d’indexation, qui ne repèrent pas tout.

Quelle est la taille du deep web ?

Le deep web est vaste, tellement plus que celui de surface, en réalité, qu’il est presque impossible d’en estimer précisément la taille.

En 2001, c’est-à-dire il ya plus de vingt ans, une étude menée par Bright Planet établissait que le deep web était 400 à 550 fois plus vaste que le web de surface, qui lui-même était déjà colossal.

Il est difficile de trouver des estimations récentes, peut-être parce que l’idée même de calculer la taille du web complet (profond et de surface) a été abandonnée devant l’expansion permanente de la somme d’informations que nous produisons et mettons en réseau.

Mais si on reprend le chiffre de Kaspersky, on peut en parler en termes de proportion : au moins 95 % des pages existantes sur le net appartiendraient au web profond.

Qu’est-ce qu’on trouve dans le deep web ?

Parmi nos usages les plus courants, une bonne partie des lieux numériques que nous visitons sous-tendent l’existence d’un millier d’autres pages auquel nous n’aurons jamais accès. Pensez, par exemple, à votre banque, chez qui vous pouvez accéder à votre compte, mais pas aux milliers de pages concernant les comptes d’autres clients. Ou à votre compte chez un service de streaming audio ou vidéo, chez qui des milliers d’autres utilisateurs existent, chacun avec son propre profil, son propre affichage, ses propres paramètres, ses propres données d’utilisation…

Tous ces espaces en ligne sont soit non détectables par les moteurs de recherche, soit indiquent à ces moteurs de ne pas les répertorier, soit sont protégés par différentes mesures de sécurité, à commencer par des mots de passe. S’y mélangent des bases de données, des dossiers de santé, légaux, ou à autres composantes sensibles, des intranets d’entreprises ou d’universités… qu’il est possible de consulter à condition de savoir ce que l’on cherche et d’avoir les accès nécessaires.

On peut aussi trouver des pages web tout à fait banales, qui auraient leur place à la surface du net, mais qui utilisent des langues informatiques, des balises ou des règles qui les font sortir des radars des moteurs de recherche.

Le web visible est facilement accessible avec des moteurs de recherches. // Source : Pixabay, montage avec Canva
Les pages du web visible sont facilement accessibles avec des moteurs de recherche. // Source : Pixabay, montage avec Canva

À quoi sert le deep web ?

Le deep web n’a pas de vocation particulière. Son existence n’est que le résultat d’un « défaut d’indexation », ou plutôt d’une limite dans le référencement de ce qui se trouve en ligne. Sa caractéristique est qu’il reflète simplement les divers degrés de non-référencement et de confidentialité de contenus sur la toile. Être dans le web profond ne signifie en aucun cas que les contenus sont forcément illégaux. Ce sont juste des contenus hors de Google ou de Bing. Cela n’est en rien illicite.

Nouveauté : Découvrez

La meilleure expérience de Numerama, sans publicité,
+ riche, + zen, + exclusive.

Découvrez Numerama+

Vous voulez tout savoir sur la mobilité de demain, des voitures électriques aux VAE ? Abonnez-vous dès maintenant à notre newsletter Watt Else !