Plus besoin de télécharger près de 24 Go de fichiers via BitTorrent pour tester la multimodalité de Pixtral : depuis le 17 septembre 2024, Pixtral 12B, le tout nouveau modèle de langage conçu par la startup française Mistral AI, est utilisable directement en ligne. Il suffit de se rendre sur Le Chat, qui est un service web semblable à ChatGPT.
Le Chat est un chatbot, ou agent conversationnel, qui sert à « dialoguer » avec l’intelligence artificielle générative développée par Mistral. Lancé en février, l’outil donnait jusqu’à présent accès à trois modèles d’IA (Mistral Nemo, Codestral, Mistral Large 2), chacun ayant leurs points forts et leurs points faibles.
Quant à Pixtral, il s’agit donc d’un modèle multimodal, c’est-à-dire qu’il a la faculté de manier diverses données : cela peut être du texte, des images, de l’audio ou de la vidéo, en entrée ou en sortie, selon la configuration. Dans le cas de Pixtral, il peut recevoir puis analyser une image, avant d’en faire une description écrite.
Un exemple est donné ci-dessus, avec une image récente partagée sur X (ex-Twitter) par Emmanuel Macron le 14 septembre, après la parade des champions pour célébrer les résultats de l’équipe de France aux JO. Si le contexte sportif a échappé à Pixtral, il a su reconnaître l’Arc de Triomphe. Il a toutefois moins bien interprété la fumée colorée.
Pour tester Pixtral 12-B, il suffit de se rendre sur Le Chat (vous aurez besoin d’un compte sur le site) et de sélectionner Pixtral dans la liste des modèles disponibles, à côté de la zone de saisie de texte. Ensuite, il ne reste plus qu’à écrire vos prompts. Pixtral a surtout un intérêt avec des images, que vous pouvez lui envoyer.
Les performances de Pixtral 12-B face à d’autres modèles
La mise en ligne de Pixtral 12B sur Le Chat (ainsi que La Plateforme, qui est une solution maison d’hébergement pour l’IA) a été accompagnée de la sortie d’un article technique. Il décrit les performances du modèle face à une série de rivaux, dont Claude-3 Haiku d’Anthropic et Gemini Flash-8B de Google, deux « petits » modèles datés de 2024.
Il ressort des concurrents sélectionnés, comme des bancs d’essais retenus pour la comparaison, que Pixtral 12B fait souvent mieux ou à tout le moins jeu égal avec les autres. La compréhension du texte (science, maths et code) constitue un relatif point faible sur trois types de tests. Pixtral 12B a plus de mal à se démarquer.
Pour Mistral, Pixtral surpasse largement tous les modèles ouverts qui sont du même ordre, mais aussi des modèles fermés comme Claude-3 Haiku. La startup se félicite aussi de surclasser ou de faire jeu égal avec des modèles plus grands, teks LLaVa OneVision 72B. Les écarts, toutefois, sont parfois très serrés.
Dans un commentaire ultérieur, Mistral avance que Pixtral-12B « fournit un raisonnement multimodal de premier ordre sans compromettre les capacités textuelles clés telles que le suivi des instructions, le codage et les mathématiques ». Selon la startup, Pixtral a été formé pour remplacer son petit modèle Nemo 12B dévoilé en juillet.
Dessinez du code, générez un site
Un autre exemple de capacité que Mistral a tenu à mettre en avant est celle permettant de convertir un visuel en code informatique. L’exemple choisi est celui d’une feuille volante sur laquelle on a tracé une esquisse de site web — un titre, une sorte de menu déroulant, un bouton suivant et une mention de copyright en dessous.
Accompagné d’un prompt indiquant le cadre et la tâche à effectuer (« Write HTML code to create a website like this »), l’agent a généré du code, qu’il partage, des explications concernant la structure HTML, la mise en forme CSS et une fonction JavaScript. Le résultat, à défaut d’être somptueux, est en tout cas fonctionnel.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Vous voulez tout savoir sur la mobilité de demain, des voitures électriques aux VAE ? Abonnez-vous dès maintenant à notre newsletter Watt Else !