Si vous voulez votre ChatGPT vraiment perso, prévoyez 3 millions d’euros

Outre des chatbots personnalisés, OpenAI propose aussi des modèles de langage personnalisés. On peut passer commande auprès du laboratoire, mais la facture s’annonce extrêmement élevée.

Il y a les GPT personnalisés, et il y a les GPT vraiment personnalisés. Au début du mois de novembre, le laboratoire américain OpenAI a présenté le futur de ChatGPT : un nouveau modèle de langage GPT-4 Turbo, des données d’actualité beaucoup plus fraiches (avril 2023) et la possibilité de créer son propre chatbot sur mesure, avec un outil de création dédié.

Ce chatbot « maison » peut être entraîné sans la moindre ligne de code. Il suffit de lui parler et de lui dire comment marcher, au besoin en lui fournissant des données pour qu’il les retienne. Une solution pratique pour les particuliers comme pour les startups, ou pour les entreprises, les administrations ou les instituts de recherche ne désirant pas mobiliser trop de moyens sur ce sujet.

Un modèle de langage 100 % personnalisé

Il existe toutefois une autre option que propose OpenAI : non pas d’avoir un chatbot personnalisé, mais un modèle de langage personnalisé. C’est ce que propose aussi le laboratoire américain, avec les « custom models ». Attention, néanmoins : cette possibilité, présentée également lors du DevDay, est cette fois hors de portée de la plupart des bourses.

Vos données méritent d’être mieux protégées.

Les escroqueries, les virus et les ransomwares ne sont plus une fatalité. Protégez votre vie privée et vos données personnelles avec Bitdefender et profitez de votre vie numérique en toute sérénité.

Le formulaire d’inscription pour ces « custom models » inclut une case à cocher, qui annonce la couleur. Non seulement la durée d’entraînement de ces modèles de langage personnalisés peut prendre des mois, mais en plus le coût du ticket d’entrée atteint au minimum 2 à 3 millions de dollars (de 1,8 à 2,8 millions d’euros, environ).

La raison d’une telle barrière tarifaire à l’entrée ? Il s’agit de s’adresser à des entités qui manipulent des « ensembles de données propriétaires extrêmement volumineux », souligne OpenAI. Or, l’entraînement de ce modèle, basé sur GPT-4 (le modèle le plus récent du laboratoire, lancé au printemps 2023), se fait pratiquement d’une page blanche, ou presque.

« Cela inclut la modification de chaque étape du processus de formation du modèle », est-il détaillé. Cela couvre notamment la préformation supplémentaire spécifique au domaine dans lequel le modèle sera déployé, mais aussi l’exécution d’un processus de post-formation personnalisé, établi sur de l’apprentissage par renforcement taillé pour ledit domaine.

Un modèle de langage complètement privé

L’apprentissage par renforcement est une méthode dans le domaine de l’IA qui consiste à entraîner un système à partir de ses expériences. On peut le voir un peu comme un enfant apprenant à marcher, en essayant plusieurs manières de se tenir debout et de mettre un pas devant l’autre. Au fur et à mesure, il s’adapte en fonction de ce que ça donne.

Le modèle de langage, lui, est le moteur du chatbot. Il faut le voir comme un grand livre de connaissances, alimenté par un corpus de texte de taille variable. Quand on lui pose une question, le modèle explore sa base de données. Pour cela, il se fonde sur des statistiques et des algorithmes pour savoir comment sont agencés les mots et les phrases et, donc, comment répondre.

Compte tenu du volume de données en jeu, mais aussi du prix de cette formule, il va sans dire — mais OpenAI tient à le préciser quand même — que chaque modèle de langage personnalisé sera réservé à l’organisation qui a payé. Les données confiées ne seront réutilisées nulle part ailleurs. Quant aux modèles, ils ne serviront pas à former d’autres modèles. Ils ne seront pas non plus partagés.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !

Tout comprendre à La guerre de l’IA