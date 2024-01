Tester des modèles d’intelligence artificielle sans aucun bagage technique ? C’est possible, grâce au site Hugging Face. En fouillant un peu, on trouve facilement des démos plus ou moins convaincantes. Certaines sont remarquables. On a même généré sans difficulté une BD qui se tient.

ChatGPT pour le texte, Midjourney pour l’illustration. Voilà souvent à quoi se limite l’expérience de l’intelligence artificielle pour le grand public. Des internautes vont peut-être pousser la découverte un peu plus loin, en allant tâter d’autres outils — que ce soit Dall-E ou bien des fonctionnalités intégrées à des applications, comme l’appareil photo de la gamme Google Pixel. Mais, généralement, cela ne va pas beaucoup plus loin.

Plus rares sont, en effet, celles et ceux capables d’installer et d’utiliser un modèle complet d’IA sur leur ordinateur. Cela peut nécessiter de passer par une phase très technique qui peut requérir de manier du code informatique. Par exemple, pour passer certaines instructions durant la phase de configuration. Accessoirement, cela peut aussi exiger de la place sur son PC : le modèle de langage de Mistral AI pèse ainsi 87 Go.

« La plateforme où la communauté de l’apprentissage automatique collabore sur les modèles, les ensembles de données et les applications. » // Source : Capture d’écran

Il existe toutefois une solution intermédiaire, qui offre la possibilité de faire tourner des modèles d’IA sans rien avoir à faire de particulier. Pour cela, il suffit de visiter le site Hugging Face avec un navigateur web. C’est tout ! Cette approche souffre d’une grosse limite néanmoins : les résultats obtenus ici sont plus rudimentaires que les rendus générés localement, avec une installation complète. Ici, ce ne sont en somme que des démos.

Cependant, cela peut être suffisant pour avoir une idée, même superficielle et générale, de ce que ces modèles permettent, même s’ils ne sont pas très poussés. C’est en tout cas un bon moyen de rendre le sujet de l’IA plus accessible et à peu de frais. Celles et ceux désirant aller plus loin ont toujours la possibilité de le faire, par exemple, en téléchargeant directement le modèle et en le configurant finement.

Les tâches (Tasks) sont cachées dans le menu, en haut du site. Suivez les encadrés en orange. // Source : Capture d’écran

En date du 12 janvier 2024, Hugging Face recense plus de 464 000 modèles d’IA. Ces modèles incluent des projets portés par des entreprises de grande taille. On en retrouve entre autres liés à Microsoft, OpenAI (derrière ChatGPT et Dall-E), Mistral AI, Meta (la maison mère de Facebook) ou encore Google. Il y a aussi des projets plus confidentiels, y compris le fameux modèle entraîné sur une version de Mickey désormais dans le domaine public.

Il n’est pas nécessaire de connaître Hugging Face sur le bout des doigts pour apprivoiser l’IA. Les internautes n’ont qu’à se rendre sur l’une des rubriques — Tasks — qui sert à classer par thème les modèles : vision par ordinateur, traitement automatique du langage naturel, audio, apprentissage par renforcement (un procédé de progression de l’IA), multimodal (un type de données génère un autre type de données, comme du texte à l’image), etc.

À gauche, le principe du modèle. À droite, la démo que l’on peut tester tout de suite. // Source : Capture d’écran

Chaque rubrique est sous-divisée. Dans la vision par ordinateur, on trouve des modèles qui font une estimation de la profondeur d’une image, qui la classent, qui la segmentent, qui détectent des objets, etc. Pour l’audio, il y a la transcription orale d’un écrit ou encore une reconnaissance de la parole, par exemple. En matière de multimodalité, diverses options permettent de convertir du contenu d’un genre à l’autre (texte en vidéo, image en 3D, etc.).

Cliquez sur la rubrique qui vous intéresse (vous l’aurez deviné en naviguant sur Hugging Face : il vaut mieux savoir aligner deux mots en anglais pour comprendre le site), comme la classification d’une image. Vous tomberez alors sur une page dédiée, dans laquelle plus de 9 000 modèles sont recensés. Cependant, pas besoin de les parcourir tous. Un seul suffit.

Dans cette démo, la tour Eiffel n’a pas été reconnue. Mais on peut au moins saisir l’idée de ce que fait le modèle. // Source : Capture d’écran

Mais d’abord, c’est quoi le principe d’une classification d’image ? L’idée consiste à fournir une image au modèle pour qu’il en analyse le contenu et fournisse des labels pour la catégoriser. Dans une image de démonstration, on voit qu’une image est un chat dans la nature. Une fois passée à la moulinette de l’IA, elle est labellisée « chat égyptien ». On voit également d’autres étiquettes possibles, comme tabby (une robe de chat) et tigré (idem).

Sur le côté droit de la page, un modèle en démonstration est sélectionné et vous pouvez le mettre en œuvre immédiatement. La photo peut être prise depuis votre PC ou bien glissée et déposée depuis le web. Si ça ne marche pas, vous pouvez toujours la télécharger préalablement avant de la téléverser sur Hugging Face. Le processus s’enclenche alors. On vous indique aussi quel modèle est utilisé — ici c’est une version de Vision Transformer de Google.

Des démonstrations avant tout

Une précision importante qu’il convient d’avoir en tête : les résultats seront parfois décevants, et même souvent frustrants. La raison a été indiquée précédemment : les modèles hébergés sur Hugging Face pour un test en direct n’expriment pas leur plein potentiel, ce qui peut entraîner des réponses ou des rendus de mauvaise qualité.

L’intérêt est ailleurs : il s’agit de donner un aperçu des différentes possibilités que l’IA offre. Il est certain que les modèles donneraient davantage satisfaction en les faisant tourner localement, sur son PC, plutôt que dans une version plus limitée sur le navigateur web. Mais, cela nécessité un préalable technique (téléchargement, installation, hébergement, configuration, utilisation…) que tout le monde n’a pas.

Source : Capture d’écran

Le reste de la page inclut une vidéo explicative (en anglais), des cas d’usage, comme la recherche d’images ou l’ordonnancement par mot-clé. On trouve également des recommandations de modèles, des jeux de données, des ressources, des indications sur les bibliothèques logicielles compatibles, etc. Tous ces éléments s’adressent à un public beaucoup plus expérimenté. Idem pour le contenu des pages décrivant les modèles.

Autre rubrique sur Hugging Face qu’il est assez facile d’explorer : Spaces. Ici, il s’agit de découvrir les applications d’apprentissage automatique (un domaine de l’IA) créées par la communauté. En clair, il est possible d’avoir des idées d’application un peu plus concrètes. Un exemple ? AI Comic Factory, qui permet de générer des planches de bande dessinée avec un prompt. Inventez une histoire, choisissez un style et c’est parti.

Sur LongAnimateDiff, on peut générer une image et l’animer. Le rendu n’est pas incroyable, mais cela reste une démo. // Source : Capture d’écran

La navigation sur Spaces est sans doute un peu moins évidente que Tasks, mais on peut au moins ordonner les applications selon les tendances, leur succès et leur actualité (récemment mis à jour ou récemment créés). Cela donne une idée de ce qui est dans l’air du temps, mais il n’est pas toujours évident de savoir ce que ces apps font. Pour le savoir, il faudra cliquer sur un Spaces et parcourir la description pour saisir son rôle.

Je me lance dans la BD

Parakeet RNNT 1.1B, par exemple, transcrit le son capté par un micro pour le retranscrire ensuite en texte. PASD Magnify améliore la qualité d’une image et la personnalise. IP-Adapter-FaceID Plus demo transforme une image. Open-Vocabulary SAM permet de sélectionner un élément dans l’image et de l’identifier. Et il y a aussi des applications dont le rôle est plus flou, et qu’il faut exécuter pour saisir ce qu’elles font.

Un exemple basique avec AI Comic Factory. // Source : Capture d’écran

L’application que l’on a trouvé fort amusante sur la première page de Spaces est celle appelée AI Comic Factory. Comme son nom l’indique, c’est une fabrique de BD avec l’IA. Vous entrez votre instruction — le prompt — en haut de la démonstration, vous choisissez un style (neutre, japonais, franco-belge, médiéval, rendu 3D, etc. Il y a en tout seize paramètres) et si vous souhaitez rajouter des phylactères. Des bulles de dialogue, quoi.

Rien qu’avec un simple prompt (« a plane on fire, falling to earth », soit « un avion en feu, tombant sur terre »), on a obtenu une petite histoire qui tient presque la route. Si l’on passe avec la souris sur chaque case, on peut demander de la redessiner ou de l’éditer. On peut aussi retoucher les bulles de dialogue pour rallonger, supprimer ou corriger des portions du texte. C’est assez remarquable pour une démo en ligne, qui fonctionne en plus assez rapidement.

Un autre exemple, avec un prompt différent et un style proche du manga. // Source : Capture d’écran

L’édition permet d’ajuster le prompt, qui est systématiquement écrit en anglais. Ici, AI Comic Factory a inventé pour une case le texte suivant : digital color comicbook style, modern american comic, detailed drawing, A firefighter with short blonde hair and a muscular build scans the area with a flashlight. He wears black boots, pants, and a red jacket with silver helmets. The ground is muddy, and debris litters the surrounding area.

Ces démonstrations gratuites sont un moyen facile de mettre un pied dans l’IA facilement, sans aucun gros bagage technique derrière. Le bon fonctionnement de ces démos sur Space dépend toutefois des ressources techniques qui sont mises à disposition. Certaines capacités sont gratuites. D’autres sont payantes, et parfois très coûteuses. Mais, cela est le souci des propriétaires des différents modèles en test. Pas le vôtre.

