Avec Dataset Search, Google veut proposer un moteur de recherche centralisant des milliers de bases de données scientifiques. L'entreprise invite les fournisseurs de telles informations à s'adapter pour pouvoir figurer dans les résultats des recherches.

On connaissait déjà Google Scholar, l’outil de Google permettant de rechercher des articles et citations issus de la recherche. Dans la même veine, l’entreprise de Mountain View a annoncé le 5 septembre 2018 le lancement de Dataset Search, un moteur de recherche spécifiques aux données scientifiques.

Pour l’instant disponible en version bêta, le moteur de recherche s’adresse aux scientifiques, aux journalistes et à n’importe quelle personne en quête d’indications. L’outil permet de répondre à des requêtes parmi « des milliers de bases de données sur le web », note la chercheuse scientifique Natasha Noy (Google AI) dans une publication de blog.

Un exemple de recherche. // Source : Capture d’écran Google Dataset Search

Une norme commune pour plus de clarté

Lorsque vous effectuez une recherche dans Dataset Search, l’outil affiche une page de résultats permettant d’identifier l’origine des données présentées, « qu’il s’agisse du site éditeur, d’une bibliothèque numérique ou d’une page web personnelle ».

Google a adressé ses directives à ces différents fournisseurs, afin qu’ils donnent les mêmes informations : le nom du fournisseur de la base de données, la date de sa publication, la manière dont elles ont été collectées, et les éventuelles publications qui les mobilisent. Le moteur de recherche utilise le schéma de micro-données schema.org et invite les fournisseurs à « adopter cette norme commune ».

Le moteur de recherche identifie chaque fournisseur de base de données : ici, ProPublica. // Source : Capture d’écran Google Dataset Search

La version actuelle de Dataset Search contient plusieurs ensemble de données en sciences sociales et environnementales. Le moteur de recherche permet aussi d’accéder à des informations gouvernementales ou récoltées par des entreprises de presse. Vous pouvez par exemple y trouver des résultats issus de la Nasa, ou de ProPublica.

Google invite les fournisseurs de données à s’adapter au standard schéma.org afin de diversifier les thèmes des requêtes entrées dans son moteur de recherche. Il est également possible de faire des retours auprès de Google au sujet du développement de son moteur de recherche juste ici.

Google va-t-il ouvrir ses propres données sur la manière dont les gens cherchent des informations ?

Comme le souligne Jeni Tennison, CEO de la fondation Open Data Institute, auprès de The Verge, l’initiative de Google présente l’avantage de regrouper des éléments scientifiques souvent épars et difficiles d’accès. Il pourrait être intéressant que Google profite de ce projet pour faire aussi preuve de transparence sur les informations récoltés via le moteur de recherche. « Si nous voulons comprendre comment les gens recherchent des données et les rendent plus accessibles, il serait bien que Google ouvre ses propres données à ce sujet », suggère-t-elle.

Partager sur les réseaux sociaux