DeepSeek-V4 : prix, performances et nouveautés du modèle IA

Résumé par IA, vérifié par Numerama

En avril 2026, DeepSeek a lancé DeepSeek-V4-Preview, deux modèles open source économiquement plus accessibles que leurs homologues américains.
Les modèles DeepSeek-V4-Pro et Flash utilisent l'architecture "Mixture of Experts", offrant des performances comparables à Claude Opus 4.6-Max et GPT-5.4-High.
Avec un système hybride CSA et HCA, DeepSeek réduit drastiquement les coûts d'utilisation, rendant ses API jusqu'à 8 fois moins chères que celles des modèles américains.

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Après avoir fait trembler la Silicon Valley en janvier 2025, le laboratoire chinois DeepSeek publie DeepSeek-V4-Preview, une famille de deux modèles open weight capables de rivaliser avec les meilleurs modèles propriétaires américains pour une fraction de leur coût. DeepSeek relance la guerre technologique entre les États-Unis et la Chine à un moment où la Maison-Blanche dénonce les pratiques des laboratoires chinois.

En début d’année 2025, DeepSeek avait créé un mouvement de panique dans la Silicon Valley avec R1, un modèle de raisonnement open weight qui prétendait faire mieux qu’OpenAI pour beaucoup moins d’argent. Les cours en bourse des acteurs américains avaient chuté : l’industrie se demandait alors si la course effrénée à l’IA, avec des milliards investis dans des serveurs Nvidia, n’était pas une erreur stratégique majeure. Depuis, DeepSeek continue de miser sur des modèles ultra-optimisés qui coûtent beaucoup moins cher à l’entraînement et à l’utilisation… pendant que les Américains continuent de monter en puissance (on note toutefois que Google mise sur ses propres puces moins énergivores).

Le 24 avril 2026, après des mois de rumeurs, le laboratoire chinois a dévoilé « DeepSeek-V4-Preview », une famille de modèles open weight disponibles au téléchargement sur Hugging Face (si vous avez une machine puissante avec beaucoup de RAM). Un timing cruel pour OpenAI qui venait de déployer GPT-5.5 quelques heures auparavant. Et quand OpenAI double ses prix, DeepSeek les casse. Le groupe chinois revendique des performances comparables aux meilleurs modèles fermés américains (Opus 4.6, Gemini 3.1 Pro, GPT-5.4-xHigh…) à des tarifs API plusieurs fois inférieurs grâce à une architecture plus légère.

Le tweet d'annonce de DeepSeek-V4. // Source : X — Le tweet d’annonce de DeepSeek-V4. // Source : X

DeepSeek lance deux modèles avec des configurations très différentes : DeepSeek-V4-Pro et DeepSeek-V4-Flash

DeepSeek-V4-Preview désigne deux modèles distincts. Comme les précédents modèles du laboratoire, ces deux LLM sont construits sur l’architecture « Mixture of Experts » (MoE) qui n’active qu’une partie du modèle à chaque inférence, pour économiser des ressources. Les deux ont une fenêtre d’1 million de tokens, ce qui leur permet de rivaliser avec les meilleurs modèles américains :

DeepSeek-V4-Pro est le modèle flagship. Avec 1 600 milliards de paramètres au total, il est l’un des plus grands modèles open weight du marché. L’architecture MoE permet d’activer 49 milliards de paramètres à chaque requête pour économiser des ressources. C’est lui que compare DeepSeek à Claude Opus 4.6, GPT-5.4 et Gemini 3.1 Pro dans les benchmarks. À noter que DeepSeek n’a pas eu le temps de tester Opus 4.7 et GPT-5.5, qui sont sortis trop tard et sont logiquement meilleurs.
DeepSeek-V4-Flash vise les utilisateurs tentés par une exécution locale ou une API à petit prix. Le modèle a 284 milliards de paramètres au total (13 milliards actifs en MoE), ce qui le rend exécutable en local sur du matériel accessible. DeepSeek affirme que ses capacités de raisonnement restent proches du Pro et qu’il gère correctement les tâches agentiques simples. Il pourrait plaire aux personnes qui veulent faire tourner un OpenClaw en local.

Les deux modèles ont été entraînés sur un corpus gigantesque de plus de 32 000 milliards de tokens, soit davantage que la plupart des modèles de référence.

Des benchmarks au niveau de Claude Opus 4.6-Max et de GPT-5.4-xHigh, mais pas un écrasement total

À en croire les benchmarks publiés par DeepSeek (qui seront sans doute contestés par les autres laboratoires), les résultats des modèles chinois sont très encourageants.

En mode raisonnement maximal (DeepSeek-V4-Pro-Max), le modèle s’aligne avec Claude Opus 4.6-Max, GPT-5.4-xHigh et Gemini-3.1-Pro-High sur plusieurs tests clés. Il n’est quasiment jamais meilleur que les modèles américains, mais la possibilité d’exécuter ce type de modèle en local est inédite, surtout avec un coût d’utilisation aussi faible.

Tableau comparatif publiée par DeepSeek pour comparer les benchmarks. — Tableau comparatif publié par DeepSeek pour comparer les benchmarks. // Source : DeepSeek

Sur quelques benchmarks populaires, DeepSeek revendique de très gros scores :

SWE-Verified (résolution autonome de bugs GitHub) : 80,6 % pour DeepSeek-V4-Pro, à égalité avec Claude Opus 4.6 (80,8 %) et Gemini 3.1 Pro (80,6 %).
Codeforces (compétition de code) : 3206 points pour V4-Pro devant GPT-5.4 (3168) et Gemini 3.1 Pro (3052).
LiveCodeBench : 93,5 % pour V4-Pro, au-dessus de Gemini 3.1 Pro (91,7 %) et Opus 4.6 (88,8 %).
Terminal Bench 2.0 (utilisation autonome d’un PC en ligne de commande) : 67,9 % pour V4-Pro, contre 75,1 % pour GPT-5.4 et 65,4 % pour Opus 4.6.
Sur MRCR, qui teste la capacité à retrouver de l’information dans des contextes d’un million de tokens, Claude Opus 4.6 obtient un score de 92,9 contre 83,5 pour DeepSeek-V4-Pro.
Sur SimpleQA-Verified (connaissances générales), Gemini 3.1 Pro reste au-dessus avec 75,6 % contre 57,9 % pour DeepSeek.

Sans être le meilleur modèle du monde, DeepSeek-V4-Pro intègre le classement des meilleurs modèles malgré son caractère open weight. La vraie prouesse de la Chine est ici. Le modèle Flash affiche aussi de très bons résultats… mais logiquement en dessous. Il vise plus à concurrencer Claude Sonnet ou Gemini Flash.

DeepSeek introduit également un mode baptisé « Think Max », qui pousse le modèle à son raisonnement maximal grâce à l’injection d’un prompt système pour explorer les limites de ses capacités sur les tâches les plus complexes. Une approche déjà expérimentée par Anthropic et OpenAI, mais que DeepSeek rend disponible gratuitement.

Des prix qui écrasent Anthropic, OpenAI et Google

Une nouvelle fois, c’est sur le positionnement tarifaire que DeepSeek frappe fort. En plus de proposer le modèle en open weight (n’importe qui peut le faire tourner, des services américains proposeront sans doute des versions débridées dans les prochaines heures), DeepSeek propose des prix imbattables en API :

DeepSeek-V4-Pro : 1,74 $ en entrée, 3,48 $ en sortie
DeepSeek-V4-Flash : 0,14 $ en entrée, 0,28 $ en sortie

En comparaison, les autres services propriétaires des Américains coûtent beaucoup plus cher :

Claude Opus 4.7 : 5 $ en entrée, 25 $ en sortie
GPT-5.5 : 5 $ en entrée, 30 $ en sortie (et 30 $ / 180 $ pour la version Pro)
Gemini 3.1 Pro : 2 $ en entrée, 12 $ en sortie (tarifs qui doublent à 4 $ / 18 $ au-delà de 200 000 tokens)

DeepSeek-V4-Pro est environ 7 fois moins cher que Claude Opus 4.7 et 8 fois moins cher que GPT-5.5 sur les tokens de sortie (qui représentent l’essentiel de la facture). La version Flash pousse encore plus loin : à 0,28 $ par million de tokens en sortie, elle est littéralement 100 fois moins chère que GPT-5.5. L’écart se creuse encore avec Gemini 3.1 Pro lorsqu’on exploite la fenêtre d’1 million de tokens : à partir de 200 000 tokens, Google facture automatiquement 18 $ le million de tokens en sortie, alors que DeepSeek conserve son tarif unique de 3,48 $.

Pour diminuer les coûts, DeepSeek explique dans son document de recherche avoir développé un système hybride baptisé CSA (Compressed Sparse Attention) et HCA (Heavily Compressed Attention). Il compresse les données traitées à chaque étape plutôt que de les traiter intégralement. Résultat : dans un contexte d’un million de tokens, DeepSeek-V4-Pro ne consomme que 27 % des ressources de calcul par rapport à son prédécesseur DeepSeek-V3.2 et seulement 10 % de la mémoire cache. Un petit tour de magie qui diminue considérablement l’utilisation des serveurs.

DeepSeek explique aussi avoir changé d’optimiseur d’entraînement en adoptant Muon à la place d’AdamW. Cette optimisation lui permet une convergence plus rapide et une meilleure stabilité pendant l’entraînement.

OpenClaw : DeepSeek-V4 mise sur les agents pour se faire une place

Dans son annonce, DeepSeek mentionne les environnements agentiques comme Claude Code, OpenClaw et OpenCode qui permettent à un modèle de prendre le contrôle d’un ordinateur. Difficile de ne pas y voir un message directement adressé à Anthropic qui vient d’interdire l’usage d’OpenClaw avec ses abonnements pour réduire ses factures. DeepSeek joue la carte de l’entreprise ouverte avec des modèles conçus pour être utilisés librement.

Le géant chinois va-t-il de nouveau faire tomber les actions des grands groupes américains ? Sa méthode est désormais connue, mais DeepSeek frappe fort.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Pour ne rien manquer de l’actualité, suivez Numerama sur Google !

Tout comprendre à La guerre de l’IA