Précédemment disponible via un téléchargement BitTorrent, le premier modèle multimodal de Mistral est désormais accessible en ligne depuis le 17 septembre 2024. Finis les téléchargements de dizaines de Go de données : tout est maintenant disponible sur Le Chat, le chatbot maison de Mistral.

Plus besoin de télécharger près de 24 Go de fichiers via BitTorrent pour tester la multimodalité de Pixtral : depuis le 17 septembre 2024, Pixtral 12B, le tout nouveau modèle de langage conçu par la startup française Mistral AI, est utilisable directement en ligne. Il suffit de se rendre sur Le Chat, qui est un service web semblable à ChatGPT.

Le Chat est un chatbot, ou agent conversationnel, qui sert à « dialoguer » avec l’intelligence artificielle générative développée par Mistral. Lancé en février, l’outil donnait jusqu’à présent accès à trois modèles d’IA (Mistral Nemo, Codestral, Mistral Large 2), chacun ayant leurs points forts et leurs points faibles.

Quant à Pixtral, il s’agit donc d’un modèle multimodal, c’est-à-dire qu’il a la faculté de manier diverses données : cela peut être du texte, des images, de l’audio ou de la vidéo, en entrée ou en sortie, selon la configuration. Dans le cas de Pixtral, il peut recevoir puis analyser une image, avant d’en faire une description écrite.

Source : Capture d’écran

Un exemple est donné ci-dessus, avec une image récente partagée sur X (ex-Twitter) par Emmanuel Macron le 14 septembre, après la parade des champions pour célébrer les résultats de l’équipe de France aux JO. Si le contexte sportif a échappé à Pixtral, il a su reconnaître l’Arc de Triomphe. Il a toutefois moins bien interprété la fumée colorée.

Pour tester Pixtral 12-B, il suffit de se rendre sur Le Chat (vous aurez besoin d’un compte sur le site) et de sélectionner Pixtral dans la liste des modèles disponibles, à côté de la zone de saisie de texte. Ensuite, il ne reste plus qu’à écrire vos prompts. Pixtral a surtout un intérêt avec des images, que vous pouvez lui envoyer.

Les performances de Pixtral 12-B face à d’autres modèles

La mise en ligne de Pixtral 12B sur Le Chat (ainsi que La Plateforme, qui est une solution maison d’hébergement pour l’IA) a été accompagnée de la sortie d’un article technique. Il décrit les performances du modèle face à une série de rivaux, dont Claude-3 Haiku d’Anthropic et Gemini Flash-8B de Google, deux « petits » modèles datés de 2024.

Il ressort des concurrents sélectionnés, comme des bancs d’essais retenus pour la comparaison, que Pixtral 12B fait souvent mieux ou à tout le moins jeu égal avec les autres. La compréhension du texte (science, maths et code) constitue un relatif point faible sur trois types de tests. Pixtral 12B a plus de mal à se démarquer.

Quatre grands tests, avec divers évaluations à chaque fois. Pixtral-12B est confronté à quatre modèles rivaux. // Source : Mistral AI

Pour Mistral, Pixtral surpasse largement tous les modèles ouverts qui sont du même ordre, mais aussi des modèles fermés comme Claude-3 Haiku. La startup se félicite aussi de surclasser ou de faire jeu égal avec des modèles plus grands, teks LLaVa OneVision 72B. Les écarts, toutefois, sont parfois très serrés.

Dans un commentaire ultérieur, Mistral avance que Pixtral-12B « fournit un raisonnement multimodal de premier ordre sans compromettre les capacités textuelles clés telles que le suivi des instructions, le codage et les mathématiques ». Selon la startup, Pixtral a été formé pour remplacer son petit modèle Nemo 12B dévoilé en juillet.

Dessinez du code, générez un site

Un autre exemple de capacité que Mistral a tenu à mettre en avant est celle permettant de convertir un visuel en code informatique. L’exemple choisi est celui d’une feuille volante sur laquelle on a tracé une esquisse de site web — un titre, une sorte de menu déroulant, un bouton suivant et une mention de copyright en dessous.

Accompagné d’un prompt indiquant le cadre et la tâche à effectuer (« Write HTML code to create a website like this »), l’agent a généré du code, qu’il partage, des explications concernant la structure HTML, la mise en forme CSS et une fonction JavaScript. Le résultat, à défaut d’être somptueux, est en tout cas fonctionnel.

