Wikipédia offre un aperçu du casse-tête juridique des IA génératives avec le droit d'auteur

Résumé par IA, vérifié par Numerama

Wikimédia considère, dans une analyse préliminaire, que la réutilisation de ses contenus par des IA comme ChatGPT est globalement permise par la licence Creative Commons BY‑SA 3.0.
Le non-respect des obligations d’attribution et de « partage dans les mêmes conditions » lors de copies massives pourrait toutefois enfreindre cette licence.
L’entraînement de modèles sur des œuvres protégées pourrait relever du « fair use » aux États-Unis, mais demeure juridiquement incertain.

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

L’arrivée des intelligences artificielles génératives, comme ChatGPT pour le texte et Midjourney pour l’image, soulève de lourdes questions juridiques, notamment en matière de droit d’auteur. La fondation Wikimédia, qui gère l’encyclopédie Wikipédia, esquisse la complexité des ramifications juridiques derrière ce sujet.

ChatGPT ne génère pas du texte par l’opération du Saint-Esprit. Son modèle de langage, qui constitue son socle technique (GPT-3.5, puis GPT-4), a été entraîné sur des centaines de milliards de mots. Par ailleurs, c’est aussi un chatbot qui peut aller chercher des informations sur le net, comme Wikipédia. C’est ce que l’on constate par exemple dans la présentation de GPT-4.

Cette utilisation des contenus de l’encyclopédie — écrits par les internautes collectivement — soulève des questions d’ordre juridique : OpenAI, l’entreprise américaine derrière ChatGPT, peut-elle puiser librement dans les pages du site pour entraîner ses modèles et pour parcourir ses pages web, à la demande de l’utilisateur, en vue de générer du texte ?

C’est une question qui fait écho à celle que l’on voit émerger de plus en plus du côté des IA spécialisées dans les illustrations, à l’image de DALL-E, Stable Diffusion et Midjourney — les trois intelligences artificielles génératives les plus connues. Leurs algorithmes ont été entraînés sur des contenus existants pour savoir répondre à une requête avec leur interprétation.

Il s’avère que les artistes sont de plus en plus nombreux à dénoncer l’arrivée de ces outils. D’abord, parce qu’ils viennent frontalement les concurrencer, ce qui menace leur activité. Ensuite parce que ces modèles ont pu être entraînés avec des dessins, des peintures et des visuels protégés par le droit d’auteur, sans aucune autorisation.

Pour Wikimédia, utiliser ses contenus n’est pas un souci… a priori

Qu’en est-il pour une œuvre collective comme Wikipédia ? Cette question est en train d’être traitée par la fondation Wikimédia, qui chapeaute l’encyclopédie et les projets annexes. Le 23 mars, elle a mis en ligne un article dans lequel elle offre une première analyse juridique du copyright vis-à-vis de ChatGPT, à travers le prisme du droit américain.

Si Wikimédia prévient qu’il s’agit d’un « point de vue préliminaire », donc susceptible d’évoluer, une orientation se dégage. L’exploitation par OpenAI et ChatGPT (et par n’importe qui plus généralement, que ce soit un chatbot, une entreprise ou un particulier) des contenus figurant dans ses espaces ne serait pas une difficulté à première vue.

Pour aller plus loin

79530 Self Portraits/Mario Klingemann (DE) // Source : Mario Klingemann

Quand une IA peint une œuvre, quelle est la place de l’artiste ?

On le voit d’ailleurs déjà sur le web : Google exploite aussi Wikipédia. C’est aussi le cas d’autres entreprises. L’encyclopédie est une mine précieuse pour enrichir des sections entières d’un moteur de recherche pour aider les assistants vocaux à aller chercher de l’information pour ensuite la retranscrire oralement. Ces utilisations sont massives.

Wikimédia commence à explorer les problématiques juridiques des IA génératives. // Source : Idil Keysan

Cela est dû à la nature du cadre juridique qui s’applique aux contenus, justement. Sur Wikipédia, les textes, les images, les sons, les vidéos et autres formats sont, pour l’immense majorité, gérés par la licence Creative Commons. Plus précisément, il s’agit de la licence « Attribution – Partage dans les Mêmes Conditions 3.0 », qui est l’une des plus permissives.

« Les licences Creative Commons autorisent la libre reproduction et la réutilisation, de sorte que des programmes d’IA comme ChatGPT peuvent copier du texte d’un article de Wikipédia ou une image de Wikimedia Commons », avance Wikimédia dans son observation préliminaire. N’importe qui peut donc récupérer le texte et l’employer à sa guise, sans rien à payer.

Il y a toutefois un point sur lequel Wikimédia est hésitante : est-ce que la copie massive de contenu peut entraîner une violation de la licence Creative Commons, si certaines spécificités de ce cadre ne sont pas respectées ? Dans cette licence, il faut en principe attribuer et partager dans les mêmes conditions. Deux conditions qui ne semblent pas appliquées avec application.

Dans le cas de l’attribution, il s’agit, dans les grandes lignes, de citer l’auteur et de fournir un lien vers la source. Quant au partage dans les mêmes conditions, l’idée est que le nouveau contenu utilise la même licence. Dans ChatGPT, on ne voit pas ces éléments lorsque l’on interagit avec l’agent conversationnel. Mais dans d’autres intégrations, comme Bing, c’est mieux sourcé.

Outre la question de la nature des données en « entrée » (sont-elles protégées ? Peuvent-elles être considérées comme du fair use ? Etc.), il y a aussi ce qui se passe en « sortie » (est-ce couvert par le droit d’auteur ? Si oui, qui a les droits ? Est-ce soumis à la même licence que les données en entrée ? Etc.)

La question du respect de la licence, au niveau de la sortie, c’est-à-dire sur le texte généré par l’IA, est également délicate pour une autre raison. ChatGPT ne fait pas que copier-coller Wikipédia : dans sa réponse, il peut en réécrire des pans, tout en s’appuyant sur d’autres sources, pour un rendu mixte. De fait, la part provenant de Wikipédia est plus ou moins diluée.

« Dans l’ensemble, il est plus probable qu’improbable que les systèmes de formation utilisant des données protégées par le droit d’auteur soient couverts par l’usage loyal aux États-Unis, si l’on en croit les précédents actuels, mais l’incertitude est grande », prévient Wikimédia. Cette supposition ne vaut que pour les USA. En France, il n’y a pas de fair use, mais des exceptions.

La fondation admet que les enjeux juridiques autour des IA génératives, que l’on entraîne à partir de données dont le statut est variable, sont encore à déterminer et à éclaircir — y compris le volume des données en jeu pour nourrir les algorithmes. Cela se voit d’ailleurs sur un sujet périphérique : les créations d’une IA peuvent-elles être protégées par le droit d’auteur ? Aujourd’hui, c’est non.

Ces problématiques, et d’autres esquissées par Wikimédia, sont encore loin d’être toutes tranchées, d’autant que les législations diffèrent d’un pays à l’autre. « Toutes les possibilités restent ouvertes, car des affaires clés concernant l’IA et le droit d’auteur n’ont pas encore été résolues », prévient la fondation. Un casse-tête pour les juristes et une ligne rouge pour les artistes.