Quatorze mois après son départ d’OpenAI, Mira Murati dévoile le premier vrai modèle de Thinking Machines. Il ne s’agit pas d’un concurrent frontal de GPT, mais une IA conçue pour écouter, voir et répondre simultanément.

Mira Murati a quitté OpenAI en septembre 2024. Quatorze mois plus tard, Thinking Machines sort enfin de son silence avec un produit qui ne ressemble pas à un nouveau GPT : l’entreprise dévoile un modèle dit « d’interaction » qui écoute en parlant.

Le 11 mai 2026, l’équipe a annoncé une research preview baptisée TML-Interaction-Small. Ce n’est pas un modèle de frontière, pas un concurrent direct de GPT ou Claude ou Gemini sur le raisonnement pur, mais plutôt une tentative de casser un réflexe qu’on a tous fini par intégrer sans s’en rendre compte : phraser nos questions comme des e-mails, attendre que l’IA finisse de parler avant de répondre et accepter cette latence de quelques secondes.

Concrètement, TML-Interaction-Small est un modèle Mixture-of-Experts de 276 milliards de paramètres dont 12 milliards sont actifs à chaque appel. Il découpe la conversation en micro-tours de 200 millisecondes : pendant qu’il génère sa réponse, il continue d’écouter, de voir et d’ajuster.

Le terme technique, c’est full-duplex, ou, pour faire simple, un téléphone qui permet aux deux interlocuteurs de parler en même temps (pas sûr que ça serve à quelque chose, mais c’est comme ça qu’on interagit entre humains).

Sur le benchmark FD-bench v1.5, conçu pour mesurer la qualité d’interaction et non l’intelligence brute, le modèle décroche 77,8 points contre 46,8 pour GPT-realtime-2.0 en mode minimal. Sa latence de prise de parole tombe à 0,40 seconde, contre 0,57 pour Gemini-3.1-flash-live et 1,18 pour GPT-realtime-2.0 minimal. À titre de comparaison, une conversation humaine fluide se cale autour de 200 à 250 millisecondes entre deux tours de parole (ndlr : quand Nicolas Lellouche boit du café, nos tests indépendants ont plutôt mesuré 20 ms entre chaque interaction).

Le benchmark en question mesurant la qualité de la réponse // Source : Capture d'écran Numerama
Le benchmark en question mesurant la qualité de la réponse // Source : Capture d’écran Numerama
Le même benchmark mesurant la latence // Source : Capture d'écran Numerama
Le même benchmark mesurant la latence // Source : Capture d’écran Numerama

Thinking Machines a levé 2 milliards de dollars en juillet 2025 à une valorisation de 12 milliards, dans ce qui a été présenté comme le plus gros tour de seed de l’histoire. La société compte une cinquantaine de salariés, dont John Schulman, cofondateur d’OpenAI, et plusieurs anciens cadres de la maison-mère partis dans la foulée de Murati. C’est leur deuxième sortie publique, après Tinker, une API de fine-tuning lancée en octobre 2025.

Deux modèles, deux vitesses

L’architecture du modèle de Thinking Machine mise en réalité sur un duo de modèles. Le modèle d’interaction gère le temps réel, la voix, le regard, les interjections. En parallèle, un background model plus lourd s’occupe du raisonnement complexe, des recherches web, des appels d’outils, et fait remonter ses résultats dans la conversation en cours. En pratique, l’IA peut continuer à discuter pendant qu’elle cherche une information. Encore plus efficace qu’un humain monotâche.

Les grands modèles de langage classiques n’ont pas d’horloge interne : ils ne « savent » l’heure que si on la précise. Sur mes essais personnels, Gemini se plante par exemple systématiquement sur les dates ou les moments de la journée. Selon VentureBeat, le modèle de Thinking Machines peut gérer des instructions du type « rappelle-moi de vérifier la température toutes les 4 minutes ». Pour des cas d’usage en laboratoire, en chaîne de production ou en santé, ce n’est pas un gadget.

Les modèles d’interaction, l’avenir ?

Thinking Machines a-t-il présenté l’IA du futur ? L’ingénieur Sean Goedecke, qui a déjà passé l’annonce au crible sur son blog, rappelle que les modèles full-duplex existent déjà : Moshi de Kyutai, Nemotron-VoiceChat de Nvidia, et d’autres tournent depuis plusieurs mois. La nouveauté de Thinking Machines tient surtout au couplage avec un agent de raisonnement en arrière-plan. Goedecke note d’ailleurs que sur certains benchmarks comme BigBench Audio, le score passe de 76 % à 96 % une fois le background model activé.

Sur le marché grand public, le rapport de force ne bouge donc pas du jour au lendemain. OpenAI domine la distribution, Google pousse Gemini Live sur Android, et Anthropic mise sur autre chose. Thinking Machines ne propose pour l’instant qu’une preview à un cercle restreint de chercheurs, avec une ouverture au public prévue « plus tard cette année », sans date précise. Le code source n’a pas été publié, malgré les engagements initiaux de Murati sur un « composant open source significatif » dans le premier produit de l’entreprise.

Pour les développeurs et les chercheurs, c’est donc une piste sérieuse à surveiller, surtout si Thinking Machines tient sa promesse d’ouverture. Pour le grand public, il faudra attendre l’arrivée effective du modèle dans un produit utilisable. En attendant, la promesse d’un assistant vocal qui ne coupe plus la parole comme un mauvais interviewer est suffisamment concrète pour donner envie d’y croire.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+
Toute l'actu tech en un clien d'oeil

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !


Pour ne rien manquer de l’actualité, suivez Numerama sur Google !