Le gouvernement français, qui a lancé son comparateur de modèles d’IA en octobre 2024, vient de révéler son tout premier classement. Et les résultats sont surprenants.

Le classement peut surprendre : un an après son lancement, le comparateur de modèles d’IA du gouvernement, compar:IA, a dévoilé le 3 novembre 2025 ses premiers résultats.

Imaginée par la Direction interministérielle du numérique (DINUM) et le ministère de la Culture, cette plateforme publique française permet depuis un an de comparer différents modèles d’IA conversationnelle, de façon anonyme. Dans 95 % des cas, l’utilisateur pose une question à deux IA « à l’aveugle » — il peut aussi, plus rarement (5 % des cas), choisir parmi une liste de questions prédéfinies. Les deux IA répondent, l’utilisateur choisit celle qu’il préfère, puis découvre les identités des modèles testés, avec quelques données complémentaires (origine, taille, open source ou non, impact environnemental estimé).

À notre grande surprise, les résultats publiés par cet outil français n’ont pas grand-chose à voir avec ceux d’autres comparateurs, comme LMArena.

compar:IA est disponible depuis octobre 2024. // Source : compar:IA
L’outil est disponible depuis octobre 2024 : voici son classement au bout d’un an. // Source : compar:IA

Un petit modèle Mistral en tête du classement, GPT-5 et Gemini 2.5 Pro largués… Le classement de la France étonne

Le podium a de quoi faire lever un sourcil. En tête, un modèle français — Mistral-medium-3.1 — qui n’est même pas le plus performant de la marque. Cet « intermédiaire » est avant tout pensé pour offrir un bon compromis coût/performance dans le cloud. Il devance au classement Gemini-2.5-Flash et Gemini-2.0-Flash, deux modèles allégés conçus pour la rapidité plutôt que la profondeur, qui sont moins performants que Gemini-2.5-Pro, en tête des classements internationaux. La présence de Gemini 2.0 Flash dans le top 3, malgré son ancienneté, a de quoi surprendre : comment trois modèles « allégés », comme Mistral Medium 3.1, Gemini 2.5 Flash et Gemini 2.0 Flash peuvent battre les fleurons du secteur ?

Le classement de la partie Text Arena de LMArena. // Source : LMArena
Le classement de la partie Text Arena de LMArena, le comparateur international, avec des résultats très différents. // Source : LMArena

Prudent, le Ministère de la Culture rappelle qu’il dispose de très peu d’informations sur le profil des votants — un choix volontaire lié à la protection des données personnelles. Impossible, donc, de savoir si les participants étaient des experts, des curieux, ou de simples utilisateurs venus tester les IA.

Du côté d’OpenAI, le constat est tout aussi surprenant. Le premier modèle GPT n’apparaît qu’à la septième place — et il ne s’agit même pas de GPT-4.5 ou GPT-5, mais de gpt-oss-120b, une version open source publiée en août 2025. Les autres modèles d’OpenAI suivent : gpt-4.1-mini (22e) et gpt-5-mini (26e). À titre de comparaison, dans la catégorie « Text Arena » de LMArena — dédiée aux performances textuelles des modèles –, les trois premières places sont occupées par Gemini-2.5-Pro, Claude Opus 4.1 et Claude Sonnet 4.5. Des résultats bien plus en phases avec ce que disent les experts de l’industrie.

Classement françaisClassement LMArena
#1Mistral Medium 3.1Gemini 2.5 Pro
#2Gemini 2.5 FlashClaude Opus 4.1 Thinking
#3Gemini 2.0 FlashClaude Sonnet 4.5 Thinking
#4Qwen 3 MaxGPT-4.5 Preview
#5DeepSeek-V3GPT-4o
#6Gemma-3 (27b)OpenAI o3
#7GPT-oss (120b)Claude Sonnet 4.5
#8DeepSeek-V3.1GPT-5 High
#9Magistral Medium 3.1Claude Opus 4.1
#10DeepSeek-V3 ChatQwen 3 Max
En gras, les modèles présents dans les deux classements

Intervalle de confiance : faut-il se fier au classement français ?

Pour interpréter ces résultats, la DINUM et le ministère de la Culture insistent sur un indicateur clé : l’intervalle de confiance. Il mesure la solidité d’une position dans le classement. Il ne s’agit pas d’un simple détail statistique, mais d’un outil essentiel pour mesurer la fiabilité des positions. En pratique, il indique le degré d’incertitude associé au score d’un modèle : plus cet intervalle est étroit, plus la position du modèle est considérée comme solide et stable. À l’inverse, un intervalle large signifie que le modèle reçoit des votes très variés — certains utilisateurs l’adorent, d’autres beaucoup moins. Concrètement, si l’on regarde deepseek-chat-V3.1 (470 votes), il apparaît actuellement à la huitième place sur compar:IA, mais avec un intervalle de confiance relativement large, de -10 à +7. Autrement dit, sa position pourrait facilement fluctuer selon les prochains votes : il pourrait aussi bien grimper de plusieurs rangs que redescendre.

Le logo de DeepSeek. // Source : Numerama
Le logo de DeepSeek. // Source : Numerama

Ce type d’écart traduit une forte hétérogénéité des réponses et souligne que le classement reste, à ce stade, vivant et évolutif, plutôt qu’une photographie figée des performances des IA. Le modèle de MistralAI, première position, dispose quant à lui d’un intervalle de confiance de -0/+0 : l’incertitude autour du score du modèle est donc extrêmement faible, voire nulle.

Le classement sera mis à jour chaque semaine, nous indique le ministère de la Culture. Trop tôt, donc, pour parler d’un biais « patriotique » en faveur de Mistral AI : aucune étude approfondie n’a encore été menée sur d’éventuels biais linguistiques, culturels ou nationaux dans les réponses des modèles. Pour l’heure, compar:IA se présente avant tout comme une base d’observation, ouverte à la recherche et à l’analyse.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+
Toute l'actu tech en un clien d'oeil

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !


Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !