Les médias en France comme aux États-Unis souhaitent que ChatGPT et les autres chatbots respectent davantage le droit d’auteur. Ils sont toutefois ouverts à l’idée d’alimenter les agents conversationnels avec leurs contenus, à condition d’être payés.

L’industrie culturelle n’est pas la seule à craindre l’émergence des outils génératifs alimentés par l’intelligence artificielle. Dans le milieu des médias aussi, la montée en puissance des agents conversationnels à la ChatGPT et Bard est suivie avec préoccupation. En cause : la manière dont ces chatbots sont entraînés, car cela pose des problèmes de droit d’auteur.

Pour pouvoir répondre aux demandes des internautes, ces systèmes ont besoin en amont de données, en très grand nombre. C’est à partir de vastes corpus de textes ou de dessins (dans le cas des IA génératives à la Midjourney ou DALL-E) que ces outils sont formés. Des textes librement accessibles sur le net, mais des textes qui ne sont pas nécessairement libres de droits.

La presse désire un « partage de la valeur »

Cette situation chiffonne les ayants droit. Dans le milieu de la presse, de plus en plus de journaux s’organisent pour empêcher ChatGPT, Bard et les autres de venir lire — et aspirer — leurs contenus pour s’entraîner et rester à la page. Dans son édition du 21 octobre, le Washington Post rapportait que plus de 535 organismes de presse ont mis en place ces bloqueurs, depuis août.

Parmi les médias qui ont pris des mesures de ce type, il y a le New York Times, Reuters et le Washington Post.

Google et OpenAI, les deux entreprises derrière Bard et ChatGPT, mettent d’ailleurs à disposition des réglages aux gérants des sites, s’ils souhaitent que leurs pages ne soient pas scannées par les chatbots. Le paramètre est inactif par défaut : c’est à chaque site de faire la démarche pour exclure tout ou partie de son domaine de l’IA générative.

En France également, l’irruption des chatbots est une source de préoccupation. Le GESTE, qui regroupe les éditeurs de services en ligne, a partagé le 14 septembre sa position « face aux défis et aux promesses de l’intelligence artificielle générative. » Et, comme aux États-Unis, la question du respect du droit d’auteur demeure l’enjeu central.

ChatGPT OpenAI chatbot
ChatGPT concentre l’essentiel de l’attention, mais les autres chatbots sont aussi ciblés. // Source : Numerama

Ainsi, le GESTE, qui rassemble 140 éditeurs en ligne, plaide pour une possibilité de manifester leur opposition à certaines utilisations — en l’espèce, celles qui servent à entraîner l’IA. « La mise en place d’un mécanisme d’opt-out permettrait aux éditeurs de garder le contrôle sur l’exploitation de leurs contenus », lit-on dans la position exprimée par le GESTE.

À la problématique du droit d’auteur s’ajoute un autre enjeu : celui du partage de la valeur. C’est là que se place le GESTE dans sa communication, en évoquant entre autres « l’établissement d’un partenariat durable permettant un partage de valeur équitable et une juste rémunération des médias », pour éviter « de restreindre l’accès à leurs contenus. »

C’est également le nœud du problème outre-Atlantique : payer la presse parce que ses articles nourrissent les chatbots. Ce n’est par ailleurs par le seul axe d’échange. Les éditeurs désirent aussi que des liens apparaissent dans les réponses, de façon à réorienter une partie du trafic web vers eux. Ces sources n’apparaissent pas de base sur ChatGPT, par exemple.

Les entreprises qui mettent au point ces agents conversationnels sont réticentes à l’idée de devoir payer pour ces données — on l’a vu en Europe, lorsqu’a été mise en place la directive sur les droits voisins et, plus récemment, au Canada, avec le bras de fer entre les géants de la tech et les médias. Cette position n’a aucune raison de varier avec la montée en puissance des chatbots.

Une alliance de circonstance au-delà des médias ?

Si les médias sont dans une situation de dépendance vis-à-vis des géants de la tech pour faire exister leurs papiers sur les moteurs de recherche et les réseaux sociaux, c’est plutôt l’inverse dans le cas des chatbots. Ce sont les agents conversationnels qui ont besoin de ces contenus protégés pour exister, être formés et rester à jour, au rythme de l’actualité.

Dans ce rapport de force, c’est justement l’union qui fera la force. Les médias ont tout intérêt à se coaliser, sans doute au-delà de leurs propres frontières, pour tordre le bras des géants de la tech pour qu’ils revoient le fonctionnement de leur chatbot et, surtout, signent des accords de licence pour utiliser massivement leurs données.

Dans cette bataille, les éditeurs de presse pourront certainement trouver des alliés au-delà de leur secteur. On sait que des plateformes comme Reddit, X (ex-Twitter), Wikipédia ou encore Stack Overflow ont pris des mesures plus ou moins défensives pour freiner l’accès à leurs contenus — par exemple, en conditionnant l’accès à leur API, à l’image de Reddit ou X.

Pour certains, cela s’apparente à une question de vie ou de mort. Stack Overflow (un site dédié à la programmation informatique) a licencié en octobre 28 % de son personnel et le trafic vers cette communauté dédiée à la programmation a chuté de 15 %, un mois après la sortie de GPT-4 — signe que son audience se tourne vers l’IA pour avoir des réponses à ses questions. Réponses qui, un comble, ont pu être aspirées sur Stack Overflow justement.

Le panorama, toutefois, bouge. Cet été, il a été annoncé la signature d’un accord entre OpenAI et l’Associated Press pour que les contenus de ce dernier servent de terrain d’entraînement pour améliorer les modèles de langage qui font tourner ChatGPT. Cet accord reste pour l’heure exceptionnel, car il ne concerne qu’un seul média. Il reste maintenant à s’accorder avec toute la presse restante.

Nouveauté : Découvrez

La meilleure expérience de Numerama, sans publicité,
+ riche, + zen, + exclusive.

Découvrez Numerama+

Vous voulez tout savoir sur la mobilité de demain, des voitures électriques aux VAE ? Abonnez-vous dès maintenant à notre newsletter Watt Else !