Les utilisateurs de ChatGPT Plus peuvent désormais autoriser le chatbot à effectuer des recherches sur le web, pour aller au delà de sa base de données arrêtée en 2021. Une évolution prometteuse, mais qui est encore peu utile à cause de soucis techniques.

C’est une évolution attendue de longue date par les fans d’OpenAI. ChatGPT peut maintenant arpenter le web lorsqu’il n’a pas la réponse à une question. Une fonctionnalité réservée aux utilisateurs payants de l’IA, déployée en bêta le 12 mai dernier. Avec cette nouvelle option, le chatbot est censé savoir « quand et comment naviguer sur Internet pour répondre à des questions sur des sujets et des événements récents. » Bien sûr, OpenAI précise que ce nouveau mécanisme est amené à évoluer au fil des mises à jour. On imagine mal ChatGPT rester « hors ligne » indéfiniment.

Pour activer l’accès au web, rien de plus simple. Il suffit de disposer d’un compte premium, de cliquer sur son profil, sur « Settings » puis « Beta Features » et enfin de cocher « Web browsing. » Pour l’heure, il n’est pas possible d’activer le plugin dans les anciennes conversations. Seuls les nouveaux chats avec GPT-4 permettent de déclencher la navigation web, en se cochant l’option « Browsing » depuis l’onglet supérieur de l’interface. GPT-3.5 reste donc bloqué dans le passé.

Lorsqu’on crée une nouvelle conversation dans ChatGPT Plus, on dispose de plusieurs options sous l’onglet GPT-4. Dont l’accès au web. // Source : Capture Numerama

ChatGPT enfin dans le présent

Avec la navigation web, ChatGPT peut enfin connaître le présent. L’entraînement de GPT-4 sur le web ayant pris fin en septembre 2021, l’IA ne pouvait fournir des informations sur des choses qui se sont produites en 2022 ou en 2023. Quand on questionne la version classique de ChatGPT sur le nom de l’actuel président de Twitter, l’IA répond que selon des informations antérieures Jack Dorsey était à la tête de l’entreprise. Bien sûr, Elon Musk a depuis pris le relai.

Avec l’option « web browsing », ChatGPT analyse votre question et déclenche une recherche web si cette dernière nécessite une réponse actualisée. L’IA cherche alors par mots clés sur le web, navigue sur plusieurs pages web et lit ensuite leurs contenus. Si GPT-4 pense avoir trouvé la réponse à votre question, il répond ensuite sous forme de texte, en citant la source utilisée (avec un lien).

ChatGPT répond plus justement aux questions simples. // Source : Capture d’écran

Pour ses recherches sur Internet, ChatGPT utilise Bing, le moteur de recherche de Microsoft, partenaire historique d’OpenAI. La source utilisée en majorité par GPT pour trouver une information est en réalité le premier lien des pages de recherche Bing pour le terme demandé.

ChatGPT devient lent

ChatGPT Browsing a un défaut : obtenir une réponse à une question prend parfois de longues secondes, pour ne pas dire des minutes. Pour répondre, l’IA va scroller de nombreux sites quand GPT avec Bing se contente des premiers résultats et affiche la réponse plus rapidement. La réponse du ChatGPT d’OpenAI apparaît cependant souvent plus complète et détaillée, mais il vaut mieux être patient pour l’obtenir. C’est un vrai problème, puisqu’effectuer soi même une recherche sur Google est parfois plus rapide.

GPT ne parvient pas à accéder aux sites web complexes. // Source : Capture d’écran

Lors de nos tests, nous avons aussi constaté de nombreux bugs. Quand la réponse générée ne plante tout simplement pas (erreur à la génération notamment), le navigateur intégré semble tourner en rond et reste dans l’impossibilité de visiter plusieurs pages web. Selon nos tests, le crawler d’OpenAI présenterait des difficultés pour charger et interpréter le texte généré par des scripts. « L’outil de navigation fourni n’a pas la capacité d’exécuter ou d’interpréter JavaScript. Cet outil est conçu pour fournir des informations textuelles à partir de pages web et peut ne pas afficher correctement certains éléments des pages web, en particulier le contenu dynamique généré ou manipulé par JavaScript », explique ChatGPT.

Enfin, nous avons aussi remarqué que ChatGPT avait parfois la mauvaise habitude de faire confiance à sa base de données datée, au lieu d’effectuer une recherche. La question « Quelle est la monnaie en Croatie ? » aboutit à la réponse « la kuna ». Mais un « en es-tu sûr ? » lui permet d’aller vérifier et de parler du passage à l’euro en janvier 2023. OpenAI doit sans doute encore affiner ses algorithmes.

Pourquoi ChatGPT a du mal avec le web ?

Le robot d’OpenAI comprend essentiellement les contenus textuels en dur présents sur les pages web. Impossible également pour lui de lire un PDF, une image ou encore une vidéo. Plus inquiétant, le champ des possibles du navigateur pourrait bien se refermer peu à peu.

Avant de visiter un site web, le robot d’OpenAI va vérifier le fichier « robots.txt » à la racine du nom de domaine, quand il existe. Ce dernier permet de préciser quelles sont les pages autorisées et interdites à la navigation par les robots d’indexation. Or, pour protéger leurs contenus, plusieurs sites commencent déjà à interdire le crawl (la visite) de leurs pages web spécifiquement au robot de ChatGPT (en indiquant l’user agent, la signature numérique du navigateur utilisé par l’IA). Les sources d’information à disposition de l’IA pourraient alors rapidement se tarir.

Certains sites interdisent à ChatGPT d’entrer, ce qui provoque un message d’erreur. // Source : Capture d’écran

