Les intelligences artificielles de création d’images, telles que Stable Diffusion ou Midjourney, sont devenues en très peu de temps très populaires. Mais il reste difficile de savoir exactement sur quelles images ces IA se sont entraînées.

Vos photos sur les réseaux sociaux ont-elles servi à entraîner une intelligence artificielle ? Dit comme cela, la question peut paraître absurde. Qui irait imaginer que des clichés publiés sur Facebook ou Instagram pourraient être utilisés pour apprendre à des IA à quoi ressemble une forêt ?

Pourtant, c’est un fait : les intelligences artificielles de génération d’images ont été entraînées sur un gigantesque corpus de photos trouvées sur Internet — peut-être les vôtres. La question est encore plus importante si vous êtes un créateur sur les réseaux sociaux, et si vous voulez vous assurer qu’il n’y a pas eu d’entorse aux droits d’auteur. Pour savoir si tel est le cas, il existe un outil : HaveIBeenTrained.

Consultez les bases de données utilisées pour entraîner les IA

HaveIBeenTrained permet de consulter Laion 400M et Laion 5B, deux gigantesques bases de données contenant respectivement 400 millions et 5 milliards de photos qui ont servi à entraîner les intelligences artificielles Stable Diffusion et Imagen. Il s’agit des deux plus grandes bases de données d’images décrites avec du texte, ce qui permet aux IA de mieux associer les deux idées.

Pour savoir si un de vos dessins partagés sur Internet fait partie de ces deux énormes bases de données, rien de plus simple : il vous suffit de faire une recherche par image, ou par texte. Une requête pour « photo forêt » vous montrera toutes les images qui existent dans la base de données correspondant à cette description.

Un exemple de recherche sur HaveIBeenTrained // Source : HaveIBeenTrained

Mais HaveIBeenTrained s’adresse surtout aux artistes présents sur les réseaux sociaux, et dont les œuvres pourraient avoir été aspirées par Laion. Le site propose ainsi « aux artistes de rechercher dans ces bases de données des liens vers leurs travaux et d’en demander le retrait », peut-on lire dans la description. « Nous sommes en partenariat avec Laion, qui a assemblé ces bases de données, afin de faire en sorte que les futurs modèles [d’intelligence artificielle] ne soient pas entraînés avec des œuvres qui ont été retirées. »

Le fait que le site s’adresse spécifiquement aux artistes n’est pas anodin. Au début du mois de janvier 2023, trois artistes, dont la dessinatrice Sarah Andersen, très connue pour ses comics sur Instagram, ont porté plainte contre Midjourney et Stable Diffusion. Ces intelligences artificielles, en utilisant des milliards d’images prises sur Internet afin de s’entraîner, « ont enfreint le droit d’auteur de millions d’artistes […] qui n’ont pas donné leur consentement et qui n’ont pas reçu de compensation. »

En utilisant HaveIBeenTrained, il est en effet aisé de se rendre compte que les dessins de Sarah Andersen figurent dans les bases de données de Laion.

Les BD de Sarah Andersen ont été utilisées par des IA pour s’entraîner // Source : HaveiBeenTrained

Que trouve-t-on dans ces bases de données ?

Jusqu’à présent, il était très difficile de savoir exactement ce qu’il y a dans ces énormes bases de données de 5 milliards d’entrées. Laion 400-M et Laion 5-B ont été assemblées avec des procédures complexes entièrement automatisées, qui ne permettent pas forcément de trier les images qui vont y être intégrées. Et cela veut parfois dire que certaines photos ne sont pas forcément libres de droits.

L’agence de photo Getty Image en a récemment fait les frais : elle s’est aperçue que des IA avaient été entrainées sur un grand nombre de ses photos, au point où ces dernières pouvaient reproduire le fameux bandeau de copyright. Getty Image a ainsi porté plainte contre Stable Diffusion pour avoir « copié et analysé illégalement des millions de photos protégées par copyright. »

Un rapide test permet en effet de se rendre compte de la variété de ce qu’on y trouve. Il n’y a pas que des photos de paysages, mais également des couvertures de livres, des images publicitaires, mais aussi des extraits de publications Facebook où les noms sont clairement identifiables, ou encore des photos de personnes anonymes publiées sur Skyblog.

Pendant nos recherches, nous sommes même tombés par hasard sur des photos à caractère pornographique, preuve qu’il y a beaucoup, beaucoup de choses disponibles sur ces bases de données — et que tout le monde ferait bien de vérifier ce qu’il s’y trouve.

On a besoin de vous pour construire l’avenir de Numerama : participez à notre enquête !