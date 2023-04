La plateforme communautaire de référence sur le net, Reddit, change de fusil d’épaule concernant l’accès à ses API. À l’avenir, les sociétés désirant exploiter les conversations des internautes sur le site pour entraîner leurs systèmes d’IA devront payer.

Les « repas gratuits », c’est terminé. Reddit siffle la fin de la récréation pour les entreprises désireuses d’exploiter les données hébergées par ses soins pour entraîner leur système d’intelligence artificielle (IA). Dorénavant, ces sociétés vont devoir se soumettre à une nouvelle politique pour exploiter ces éléments. En somme, elles devront passer à la caisse.

Ce changement de politique a été dévoilé par Steve Huffman, le fondateur et directeur du célèbre site communautaire, lors d’un entretien avec le New York Times, le 18 avril. De nouvelles directives, partagées dans la foulée dans la rubrique dédiée aux annonces de la plateforme, ont été annoncées concernant l’accès aux API et leurs conditions d’utilisation.

Reddit modifie sa politique d’accès aux API pour facturer les entreprises qui utilisent sa plateforme pour entraîner des IA. // Source : Pixabay

La raison de ce revirement ? Reddit n’ignore pas que le net est un terrain idéal pour entraîner leur modèle de langage, sur lequel reposent les chabots. Google a développé le modèle de langage LaMDA, qui nourrit son agent conversationnel Bard. OpenAI, qui a développé ChatGPT, a dévoilé en mars GPT-4, dernière génération de son modèle de langage.

GPT-4, par exemple, a été entraîné sur 45 téraoctets de données textuelles, ce qui équivaut au volume de mots de 90 millions de romans, selon ChatGPT. Ces données viennent de Wikipédia, d’articles de presse, de documents et de livres numérisés, de billets de blog, de messages laissés par les internautes et, donc, de discussions sur Reddit, rappelle The New Yorker.

Un terrain d’entraînement idéal, contenant une myriade de commentaires et d’échanges

Or, Reddit constitue une source particulièrement attractive, et presque unique dans son genre : depuis son lancement en 2005, les pages de la plateforme regorgent de ces interactions entre internautes. Ces conversations sont très utiles pour enrichir des modèles de langage, d’autant que Reddit est décliné en une myriade de sous-forums thématiques. Le travail est prémâché, en somme.

« Le corpus de données de Reddit est vraiment précieux », juge Steve Huffman. « Mais nous n’avons pas besoin de donner toute cette valeur à certaines des plus grandes firmes du monde », sans contrepartie. « Explorer Reddit, créer de la valeur et ne pas la restituer à nos utilisateurs nous posent un problème. C’est le bon moment pour nous de resserrer les choses. »

Cette nouvelle politique tarifaire concernant les API — des dispositifs techniques qui permettent se brancher aux serveurs de Reddit pour y récupérer des informations — comporte toutefois des exceptions, car tout le monde ne doit pas être logé à la même enseigne. Si Steve Huffman veut faire payer Google ou OpenAI (et, de fait, Microsoft), d’autres seront épargnés.

Les modèles de langage d’OpenAI, comme GPT-4, ont puisé dans Reddit. // Source : Numerama

Ainsi, les développeurs travaillant sur des bots qui ont un intérêt pour Reddit — comme pour la modération — et les internautes ne seront pas facturés. Même chose pour la communauté universitaire qui souhaiterait fouiller dans cette immense masse d’interaction pour en tirer des enseignements sociologiques, par exemple. Les projets à but non lucratif devraient aussi y échapper.

La réflexion de Reddit sur ce thème n’est pas sans rappeler celle qui existe autour de Wikipédia, dont les contenus sont aussi librement accessibles. Là aussi, des entreprises profitent des articles pour en extraire des informations, pour enrichir ici un moteur de recherche, là un chatbot, ou encore un assistant vocal. Or, d’aucuns plaident pour un renvoi d’ascenseur. D’ordre économique.

