En début d’année 2025, DeepSeek avait créé un mouvement de panique dans la Silicon Valley avec R1, un modèle de raisonnement open weight qui prétendait faire mieux qu’OpenAI pour beaucoup moins d’argent. Les cours en bourse des acteurs américains avaient chuté : l’industrie se demandait alors si la course effrénée à l’IA, avec des milliards investis dans des serveurs Nvidia, n’était pas une erreur stratégique majeure. Depuis, DeepSeek continue de miser sur des modèles ultra-optimisés qui coûtent beaucoup moins cher à l’entraînement et à l’utilisation… pendant que les Américains continuent de monter en puissance (on note toutefois que Google mise sur ses propres puces moins énergivores).
Le 24 avril 2026, après des mois de rumeurs, le laboratoire chinois a dévoilé « DeepSeek-V4-Preview », une famille de modèles open weight disponibles au téléchargement sur Hugging Face (si vous avez une machine puissante avec beaucoup de RAM). Un timing cruel pour OpenAI qui venait de déployer GPT-5.5 quelques heures auparavant. Et quand OpenAI double ses prix, DeepSeek les casse. Le groupe chinois revendique des performances comparables aux meilleurs modèles fermés américains (Opus 4.6, Gemini 3.1 Pro, GPT-5.4-xHigh…) à des tarifs API plusieurs fois inférieurs grâce à une architecture plus légère.

DeepSeek lance deux modèles avec des configurations très différentes : DeepSeek-V4-Pro et DeepSeek-V4-Flash
DeepSeek-V4-Preview désigne deux modèles distincts. Comme les précédents modèles du laboratoire, ces deux LLM sont construits sur l’architecture « Mixture of Experts » (MoE) qui n’active qu’une partie du modèle à chaque inférence, pour économiser des ressources. Les deux ont une fenêtre d’1 million de tokens, ce qui leur permet de rivaliser avec les meilleurs modèles américains :
- DeepSeek-V4-Pro est le modèle flagship. Avec 1 600 milliards de paramètres au total, il est l’un des plus grands modèles open weight du marché. L’architecture MoE permet d’activer 49 milliards de paramètres à chaque requête pour économiser des ressources. C’est lui que compare DeepSeek à Claude Opus 4.6, GPT-5.4 et Gemini 3.1 Pro dans les benchmarks. À noter que DeepSeek n’a pas eu le temps de tester Opus 4.7 et GPT-5.5, qui sont sortis trop tard et sont logiquement meilleurs.
- DeepSeek-V4-Flash vise les utilisateurs tentés par une exécution locale ou une API à petit prix. Le modèle a 284 milliards de paramètres au total (13 milliards actifs en MoE), ce qui le rend exécutable en local sur du matériel accessible. DeepSeek affirme que ses capacités de raisonnement restent proches du Pro et qu’il gère correctement les tâches agentiques simples. Il pourrait plaire aux personnes qui veulent faire tourner un OpenClaw en local.
Les deux modèles ont été entraînés sur un corpus gigantesque de plus de 32 000 milliards de tokens, soit davantage que la plupart des modèles de référence.
Des benchmarks au niveau de Claude Opus 4.6-Max et de GPT-5.4-xHigh, mais pas un écrasement total
À en croire les benchmarks publiés par DeepSeek (qui seront sans doute contestés par les autres laboratoires), les résultats des modèles chinois sont très encourageants.
En mode raisonnement maximal (DeepSeek-V4-Pro-Max), le modèle s’aligne avec Claude Opus 4.6-Max, GPT-5.4-xHigh et Gemini-3.1-Pro-High sur plusieurs tests clés. Il n’est quasiment jamais meilleur que les modèles américains, mais la possibilité d’exécuter ce type de modèle en local est inédite, surtout avec un coût d’utilisation aussi faible.

Sur quelques benchmarks populaires, DeepSeek revendique de très gros scores :
- SWE-Verified (résolution autonome de bugs GitHub) : 80,6 % pour DeepSeek-V4-Pro, à égalité avec Claude Opus 4.6 (80,8 %) et Gemini 3.1 Pro (80,6 %).
- Codeforces (compétition de code) : 3206 points pour V4-Pro devant GPT-5.4 (3168) et Gemini 3.1 Pro (3052).
- LiveCodeBench : 93,5 % pour V4-Pro, au-dessus de Gemini 3.1 Pro (91,7 %) et Opus 4.6 (88,8 %).
- Terminal Bench 2.0 (utilisation autonome d’un PC en ligne de commande) : 67,9 % pour V4-Pro, contre 75,1 % pour GPT-5.4 et 65,4 % pour Opus 4.6.
- Sur MRCR, qui teste la capacité à retrouver de l’information dans des contextes d’un million de tokens, Claude Opus 4.6 obtient un score de 92,9 contre 83,5 pour DeepSeek-V4-Pro.
- Sur SimpleQA-Verified (connaissances générales), Gemini 3.1 Pro reste au-dessus avec 75,6 % contre 57,9 % pour DeepSeek.
Sans être le meilleur modèle du monde, DeepSeek-V4-Pro intègre le classement des meilleurs modèles malgré son caractère open weight. La vraie prouesse de la Chine est ici. Le modèle Flash affiche aussi de très bons résultats… mais logiquement en dessous. Il vise plus à concurrencer Claude Sonnet ou Gemini Flash.
DeepSeek introduit également un mode baptisé « Think Max », qui pousse le modèle à son raisonnement maximal grâce à l’injection d’un prompt système pour explorer les limites de ses capacités sur les tâches les plus complexes. Une approche déjà expérimentée par Anthropic et OpenAI, mais que DeepSeek rend disponible gratuitement.
Des prix qui écrasent Anthropic, OpenAI et Google
Une nouvelle fois, c’est sur le positionnement tarifaire que DeepSeek frappe fort. En plus de proposer le modèle en open weight (n’importe qui peut le faire tourner, des services américains proposeront sans doute des versions débridées dans les prochaines heures), DeepSeek propose des prix imbattables en API :
- DeepSeek-V4-Pro : 1,74 $ en entrée, 3,48 $ en sortie
- DeepSeek-V4-Flash : 0,14 $ en entrée, 0,28 $ en sortie
En comparaison, les autres services propriétaires des Américains coûtent beaucoup plus cher :
- Claude Opus 4.7 : 5 $ en entrée, 25 $ en sortie
- GPT-5.5 : 5 $ en entrée, 30 $ en sortie (et 30 $ / 180 $ pour la version Pro)
- Gemini 3.1 Pro : 2 $ en entrée, 12 $ en sortie (tarifs qui doublent à 4 $ / 18 $ au-delà de 200 000 tokens)
DeepSeek-V4-Pro est environ 7 fois moins cher que Claude Opus 4.7 et 8 fois moins cher que GPT-5.5 sur les tokens de sortie (qui représentent l’essentiel de la facture). La version Flash pousse encore plus loin : à 0,28 $ par million de tokens en sortie, elle est littéralement 100 fois moins chère que GPT-5.5. L’écart se creuse encore avec Gemini 3.1 Pro lorsqu’on exploite la fenêtre d’1 million de tokens : à partir de 200 000 tokens, Google facture automatiquement 18 $ le million de tokens en sortie, alors que DeepSeek conserve son tarif unique de 3,48 $.
Pour diminuer les coûts, DeepSeek explique dans son document de recherche avoir développé un système hybride baptisé CSA (Compressed Sparse Attention) et HCA (Heavily Compressed Attention). Il compresse les données traitées à chaque étape plutôt que de les traiter intégralement. Résultat : dans un contexte d’un million de tokens, DeepSeek-V4-Pro ne consomme que 27 % des ressources de calcul par rapport à son prédécesseur DeepSeek-V3.2 et seulement 10 % de la mémoire cache. Un petit tour de magie qui diminue considérablement l’utilisation des serveurs.
DeepSeek explique aussi avoir changé d’optimiseur d’entraînement en adoptant Muon à la place d’AdamW. Cette optimisation lui permet une convergence plus rapide et une meilleure stabilité pendant l’entraînement.
OpenClaw : DeepSeek-V4 mise sur les agents pour se faire une place
Dans son annonce, DeepSeek mentionne les environnements agentiques comme Claude Code, OpenClaw et OpenCode qui permettent à un modèle de prendre le contrôle d’un ordinateur. Difficile de ne pas y voir un message directement adressé à Anthropic qui vient d’interdire l’usage d’OpenClaw avec ses abonnements pour réduire ses factures. DeepSeek joue la carte de l’entreprise ouverte avec des modèles conçus pour être utilisés librement.
Le géant chinois va-t-il de nouveau faire tomber les actions des grands groupes américains ? Sa méthode est désormais connue, mais DeepSeek frappe fort.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Toute l'actu tech en un clin d'œil
Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !
Pour ne rien manquer de l’actualité, suivez Numerama sur Google !











