ChatGPT avait-il le droit de s'entraîner sur toutes ces données ? La justice va trancher

Résumé par IA, vérifié par Numerama

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

OpenAI, l’entreprise derrière ChatGPT, est assignée en justice. Une action collective menée par un cabinet d’avocats estime que l’intelligence artificielle n’avait pas le droit de s’entraîner sur des publications en accès libres, comme des articles Wikipedia ou des commentaires sur les réseaux sociaux.

ChatGPT est certainement l’une des intelligences artificielles les plus populaires et les plus puissantes du moment. Il faut dire que le chatbot développé par OpenAI s’est entraîné sur des milliards de données pour parvenir à ce niveau et à ses résultats impressionnants. Ce qu’on sait moins, c’est exactement quelles données OpenAI a utilisées pour améliorer son IA — et si elle avait le droit de les utiliser. Pour répondre à cette question épineuse, une plainte a été déposée.

Un cabinet d’avocats californien a lancé une action collective contre OpenAI, a appris le Washington Post le 28 juin 2023. Le cabinet estime que l’entreprise a massivement violé les droits d’auteur et la vie privée d’innombrables personnes en entraînant ChatGPT sur des données récupérées d’Internet, sans en demander la permission, écrit le Washington Post.

ChatGPT avait-il le droit de s’entraîner sur ces données ?

Le cabinet d’avocat indique vouloir aider « les personnes dont les informations ont été volées et détournées à des fins commerciales pour créer cette technologie très puissante », a déclaré au Washington Post Ryan Clarkson, le directeur. Pour lui, ce sont de nombreux commentaires sur les réseaux sociaux, des posts de blogs, des articles Wikipedia et plein d’autres contenus qui seraient concernés.

ChatGPT va faire face à la justice // Source : Canva

ChatGPT s’est en effet entraîné sur d’énormes quantités de données en accès libre — généralement sans se soucier des questions de droit d’auteur. Cette particularité faisait déjà grincer les dents de nombreux utilisateurs d’internet, agacés d’avoir été utilisés sans leur consentement et sans dédommagement financier pour entraîner un outil hyper puissant — et vendu très cher.

« Toutes ces informations sont utilisées à grande échelle, alors qu’elles n’ont jamais été destinées à être utilisées par une intelligence artificielle », a indiqué Ryan Clarkson au Washington Post. L’avocat espère obtenir une indemnisation pour ses clients, et surtout, faire en sorte que des garde-fous soient mis en place concernant l’utilisation de données par des IA. Il existe en effet toujours un flou juridique autour de l’usage de publications en accès libres sur Internet par des entités tierces — et c’est exactement sur cet aspect que la justice américaine va devoir trancher.

ChatGPT n’est pas le seul à être concerné par une plainte pour violation des droits d’auteur. L’IA de génération d’image Stable Diffusion a été attaquée en justice par l’agence de photo Getty Image, qui estime que l’IA s’est entraîné illégalement sur ses photos — au point où Stable Diffusion parvient à reproduire le fameux logo de l’agence. Quant à Midjourney, elle est aussi est dans la tourmente juridique : plusieurs artistes ont porté plainte contre l’entreprise, accusée d’avoir entraîné son IA avec leurs œuvres, sans jamais avoir demandé leur accord.