L’Europe prépare un texte sur l’IA qui doit réguler le secteur, en fonction des dommages que certains systèmes peuvent causer. Mais, avec l’irruption d’outils capables de générer du contenu, le législateur réfléchit désormais à créer une catégorie particulière, régulée plus sévèrement : celle pour les modèles de fondation.

L’actualité a rattrapé le travail législatif. Alors que l’Europe planche depuis des années sur l’intelligence artificielle, l’irruption des systèmes d’IA spécialisés dans la génération de contenu change quelque peu la donne. Désormais, les députés européens cherchent à ajuster le tir, pour mieux prendre en compte les plateformes comme ChatGPT et Midjourney.

Ce recalibrage donne actuellement lieu à deux grandes catégories, soumises à des règles spécifiques. La première catégorie réunirait l’intelligence artificielle à usage général (General Purpose AI), et la seconde couvrirait les modèles de fondation, ou modèles de base (Foundation Model). C’est ce deuxième groupe qui serait soumis à des règles plus strictes.

Qu’est-ce qu’un modèle de fondation dans l’IA ?

Selon une définition du think tank de l’université de Stanford (Freeman Spogli Institute for International), ces modèles de base « sont formés sur de vastes données à l’échelle et sont adaptables à un large éventail de tâches en aval ». C’est sur ces modèles de fondation que peuvent reposer, par exemple, les systèmes d’intelligence artificielle à usage général.

« Les modèles de base [sont] basés sur l’apprentissage profond conventionnel et l’apprentissage par transfert », poursuit le think tank, qui note leur efficacité dans un « grand nombre de tâches » et leur faculté à dégager de « nouvelles capacités émergentes ». Avec une mise en garde, « car les défauts du modèle de base sont hérités par tous les modèles adaptés en aval. »

Midjourney entre dans cette catégorie, si l’on tient compte de la définition en vogue. // Source : Midjourney

Plusieurs de ces modèles sont connus du public. On retrouve ainsi GPT-3 et GPT-4, qui nourrissent le chatbot ChatGPT. Les modèles de génération d’image, comme DALL-E, conçu par OpenAI, tombent aussi dans cette catégorie. Midjourney aussi, comme Stable Diffusion. Les modèles comme BERT, LLaMA, LaMDA (qui sert à Google Bard) également.

Par contraste, souligne le site Euractiv, une IA à modèle général est un système qui peut servir à diverses tâches pour lesquelles elle n’a pas été conçue spécifiquement et intentionnellement. La différence porte entre autres sur les données. Les modèles de base ont été entraînés à partir de données extraites massivement du net, comme Reddit ou Wikipédia.

Des règles plus dures pour ces modèles d’IA spéciaux

Compte tenu du rôle de socle que peuvent endosser ces modèles de fondation, les parlementaires entendent imposer à l’entité qui construit le sien une série d’exigences avant de le mettre à disposition. Les systèmes d’IA à usage général seraient également soumis à des règles, mais relativement plus souples.

Le site Euractiv a rendu compte courant avril de l’état des discussions au niveau des parlementaires. Par exemple, il est mentionné la nécessité de tester et d’atténuer les risques raisonnablement prévisibles pour la santé, la sécurité, les droits fondamentaux, l’environnement, la démocratie et l’État de droit, avec la participation d’experts indépendants.

Des mesures concernent par ailleurs la gouvernance des données, la pérennité des sources de données, les biais éventuels, les mesures d’atténuation appropriées, les performances, l’interopérabilité, la sécurité, la cybersécurité, la transparence, le droit d’auteur, la faculté de corriger des erreurs, la documentation, les audits indépendants, les tests et les analyses de fonctionnement.

Ce revirement dans le travail législatif est notamment causé par l’arrivée soudaine d’outils comme ChatGPT. // Source : Matheus Bertelli

Certaines mesures devront être tout au long du cycle de vie des modèles de base. Quant aux risques que l’on ne peut atténuer, ils devront être recensés et les raisons pour lesquelles ils n’ont pas été traités devront être documentées. Ces règles doivent couvrir n’importe quel modèle de fondation, quelle que soit la façon dont il a été conçu, entrainé et distribué.

Des obligations s’imposeraient aussi aux fournisseurs de ces modèles de fondation jusqu’à dix ans après la mise sur le marché de certains d’entre eux — comme la transmission de certains documents. Dernière règle incontournable à laquelle tous devraient se plier : l’obligation d’enregistrer chaque modèle dans une base de données européenne.

Jusqu’à présent, l’encadrement proposé par la Commission européenne, avec sa proposition de règlement établissant des règles harmonisées concernant l’IA, se concentrait sur une organisation du secteur de l’intelligence artificielle fondée sur le niveau de risque. Quatre degrés sont prévus : minime, limité, élevé et inacceptable.

Les parlementaires prévoient désormais, selon Euractiv, de mieux distinguer les IA selon leur place dans l’écosystème et ce qu’elles sont capables de faire. Les outils spécialisés dans la génération de contenu connaissent un essor spectaculaire depuis 2022, avec la sortie de plusieurs outils comme ChatGPT et Midjourney, imposant de modifier les plans du législateur.

Si vous avez aimé cet article, vous aimerez les suivants : ne les manquez pas en vous abonnant à Numerama sur Google News.