Un jour après une dispute publique entre OpenAI et Anthropic, les deux géants de l’intelligence artificielle ont publié deux nouveaux modèles haut de gamme qui battent de nouveaux records dans leurs catégories respectives. Anthropic a dévoilé Claude Opus 4.6 vers 18h40, OpenAI a riposté vingt minutes plus tard avec GPT-5.3-Codex pour les développeurs (la cible de Claude).

Le 5 février est un jour historique pour l’IA générative : deux nouveaux modèles flagships ont été publiés en même temps.

À gauche, Claude Opus 4.6 par Anthropic, nouveau meilleur modèle au monde à en croire les benchmarks publiés par son créateur (devant Gemini 3 Pro). À droite : GPT-5.3-Codex par OpenAI, qui précède l’annonce de GPT-5.3 pour le grand public, vraisemblablement imminente. Deux mises à jour majeures présentées comme les modèles de codage les plus puissants jamais créés. Bonus : le modèle ‘OpenAI serait le premier conçu… par une version antérieure de lui-même.

Claude Opus 4.6 : l’intelligence au service de la bureautique, Anthropic veut rivaliser avec Google et OpenAI

On attendait un nouveau modèle Sonnet, mais c’est finalement avec son flasghip Opus qu’Anthropic a ouvert les hostilités.

Avec Opus 4.6, l’entreprise cherche ce qu’elle qualifie de profondeur de raisonnement. Le modèle introduit le concept d’« Adaptive Thinking », qui lui permet de moduler son temps de réflexion (et donc son coût) en fonction de la complexité de la tâche. Il s’agit, à ce jour, du modèle le plus puissant jamais sorti par Anthropic.

https://twitter.com/claudeai/status/2019467372609040752?s=20

Sur le plan technique, Claude Opus 4.6 impressionne par sa capacité à gérer des contextes massifs : jusqu’à 1 million de tokens, un record. C’est un argument de poids pour des entreprises qui veulent analyser des bases de données entières : Claude monte en capacités.

Les benchmarks publiés par Anthropic montrent une nette progression sur les tâches concrètes :

  • Code (SWE-bench Verified) : 80,8 %, un score qui le place devant la plupart des modèles actuels sur la résolution de bugs réels.
  • Contrôle Ordinateur (OSWorld) : 72,7 %. Ce chiffre est crucial : il mesure la capacité de l’IA à utiliser une souris et un clavier virtuels pour naviguer dans des applications comme un humain.
  • Humanity’s Last Exam : Anthropic prend la première place devant Gemini 3 Pro avec un score de 40 % sans outils.
La system card d'Opus 4.6 est formelle : Claude a le nouveau meilleur modèle du marché.
La system card d’Opus 4.6 est formelle : Claude a le nouveau meilleur modèle du marché. // Source : Anthropic

Anthropic déploie une autre nouveauté : « Agent Teams », qui se destine à Claude Code. Elle permet de faire collaborer plusieurs instances d’Opus 4.6 sur un même projet (l’un code, l’autre teste, le troisième documente) pour aller plus vite. Mais son intention semble aller au-delà du code : Anthropic veut séduire le grand public, comme en atteste sa publicité au Superbowl.

GPT-5.3-Codex : OpenAI monte en puissance pour tuer Claude Code

La réponse d’OpenAI ne s’est pas fait attendre : le créateur de ChatGPT a dévoilé GPT-5.3-Codex vingt minutes plus tard. Ce nouveau modèle spécialisé, intégré à l’interface Codex ou disponible pour les développeurs via l’API, est le plus avancé à ce jour pour le code. ChatGPT devra se contenter de GPT-5.2 pour l’instant, mais nul doute que GPT-5.3 est imminent pour le chatbot.

OpenAI revendique plusieurs percées majeures avec GPT-5.3-Codex :

  • Vitesse : GPT-5.3 est 25 % plus rapide que son prédécesseur.
  • Auto-amélioration : OpenAI révèle que les versions précoces de GPT-5.3 ont été utilisées pour déboguer et optimiser le modèle final, une boucle de rétroaction qui accélère le développement des modèles.
BenchmarkGPT-5.3-CodexClaude Opus 4.6
Terminal-Bench 2.077,3 %65,4 %
OSWorld (PC)64,7 % (Verified)72,7 %
SWE-Bench56,8 % (Pro)80,8 % (Verified)

Avec GPT-5.3-Codex, OpenAI semble vouloir séduire les développeurs partis sur Claude Code… au moment où Anthropic veut séduire les utilisateurs de ChatGPT.

Cette double sortie marque un tournant pour l’industrie : l’IA n’est plus évaluée sur sa capacité à bien répondre mais sur sa capacité à réaliser plusieurs tâches complexes simultanément. La bataille devrait continuer de s’intensifier en février : du nouveau est attendu chez xAI, DeepSeek et Google. On peut aussi imaginer qu’Anthropic et OpenAI préparent d’autres mises à jour.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+
Toute l'actu tech en un clien d'oeil

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !


Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !