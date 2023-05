HuggingChat, un petit cousin franco-américain de ChatGPT, a de quoi surprendre. Développé par Hugging Face, le chatbot a la particularité de se baser sur un modèle open source. Une petite révolution dans le domaine.

GPT-3, ChatGPT et, plus récemment, GPT-4… Depuis 2022, le nom d’OpenAI résonne dans toutes les têtes des passionnés du secteur. Pourtant, l’entreprise de San Francisco n’est pas la seule à développer de grands modèles de langage (LLM). Fondée en 2016, Hugging Face tend à rivaliser avec les géants du secteur. Sa particularité : proposer des modèles ouverts, accessibles à tous.

HuggingChat, c’est quoi ?

Lancé en grande pompe au cours du mois d’avril 2023, HuggingChat est un assistant virtuel similaire à ChatGPT. Il peut générer du texte dans plusieurs styles, créer du code, traduire du contenu en analysant son contexte ou vous assister dans les tâches les plus complexes.

Son interface est simple, similaire à la version publique de ChatGPT. Par défaut, les conversations avec l’IA sont partagées avec les développeurs. Une option qu’il est possible de refuser en se rendant dans les paramètres. Comme tout modèle d’intelligence artificielle, HuggingChat est susceptible d’halluciner en inventant de fausses informations (ou des citations).

HuggingChat peut générer de nombreux types de textes. // Source : Numerama

Le bot est également disponible via l’API de Hugging Face. « Certains ont dit que les API fermées étaient en train de gagner… mais nous n’abandonnerons jamais le combat pour l’IA open source », s’est félicité Julien Chaumond, l’un des co-fondateurs de l’entreprise sur LinkedIn.

Comment fonctionne HuggingChat ?

Pour fonctionner, HuggingChat s’appuie actuellement sur le modèle oasst-sft-6-llama-30b-xor d’OpenAssistant (oui, c’est un nom compliqué). Dans le but de démocratiser la recherche sur l’IA au plus grand nombre, les modèles utilisés par le bot sont totalement open source. Le projet OpenAssistant est développé et maintenu par LAION, une association allemande à but non lucratif dont l’objectif affiché est de « mettre à la disposition du grand public des modèles d’apprentissage automatique à grande échelle, des ensembles de données et le code correspondant. »

LAION œuvre également pour réduire l’empreinte énergétique des modèles d’IA pour faire face aux enjeux du réchauffement climatique sans pour autant se passer de la technologie. L’organisation est entièrement financée par des dons et des subventions liées à la recherche publique.

Techniquement, OpenAssistant a été entraîné sur des données textuelles de haute qualité, annotées par des humains pour une meilleure compréhension du contexte. Une étude des préférences a révélé que « les réponses d’OpenAssistant sont comparablement préférées à GPT-3.5-turbo (ChatGPT) avec un taux de 48,3 % contre 51,7 % respectivement », notent les développeurs du modèle dans un article scientifique du 14 avril.

Qui se cache derrière HuggingChat ?

HuggingChat est une initiative franco-américaine. C’est en réalité la startup Hugging Face, une véritable communauté autour de l’IA. La plateforme fournit des outils complets pour développer et utiliser des modèles. Elle héberge actuellement, au 4 mai 2023, plus de 120 000 modèles, 20 000 ensembles de données et 50 000 applications de démonstration nommées Spaces. Une véritable mine d’or pour les chercheurs.

« Aucune entreprise, y compris les Tech Titans, ne sera en mesure de ‘résoudre l’IA’ à elle seule – le seul moyen d’y parvenir est de partager les connaissances et les ressources dans le cadre d’une approche centrée sur la communauté », assure la start-up sur son dépôt GitHub.

Hugging Face veut ajouter de l’open source à l’IA. // Source : Pavel Danilyuk / Pexels

Bien que les trois fondateurs, Clément Delangue, Julien Chaumond et Thomas Wolf, soient français, Hugging Face est basée aux États-Unis. Une nouvelle illustration du désormais bien connu phénomène du « brain drain. »

Pourquoi l’arrivée d’une IA open source est une bonne nouvelle ?

Plus qu’un simple délire de nerd, l’open source constitue une nécessité pour la communauté scientifique. « Je crois que nous avons besoin d’alternatives open-source à ChatGPT pour plus de transparence, d’inclusivité, de responsabilité et de distribution du pouvoir », explique de son côté Clement Delangue sur Twitter.

I believe we need open-source alternatives to ChatGPT for more transparency, inclusivity, accountability and distribution of power.



Excited to introduce HuggingChat, an open-source early prototype interface, powered by OpenAssistant, a model that was released a few weeks ago. pic.twitter.com/8U1OY0jnzP — clem 🤗 (@ClementDelangue) April 25, 2023

Pour les chercheurs, utiliser une IA plus transparente permet d’obtenir des résultats plus précis dans le cadre d’une étude. Afin de comprendre le comportement du système dans certaines situations, il est bon de connaître le code et les données d’entraînement du modèle (pendant sa phase d’apprentissage).

Dans le cas de ChatGPT, des chercheurs de l’Université de Californie à Berkeley (Kent Chang, Mackenzie Cramer, Sandeep Soni, et David Bamman) ont démontré la prédominance de certains genres littéraires au sein de la « mémoire » de l’IA. Un biais négatif susceptible notamment d’affecter les résultats d’une étude menée avec ces outils d’intelligences artificielles.

Enfin l’opacité relative des modèles propriétaires fait craindre le risque d’une fuite d’informations confidentielles (secret industriel notamment) dans le cas d’une utilisation professionnelle. Sans parler des risques pour la vie privée lors d’un usage personnel.

