C’est une note de frais personnelle qui a tout déclenché.
Tejas Chopra, ingénieur senior chez Netflix, raconte dans un billet de blog paru fin janvier 2026 le choc d’une facture à 287 dollars pour une simple session de travail avec Claude. Un peu de débogage, quelques refactorisations, des appels via des outils MCP pour interroger une base de données. Les tâches demandées n’ont rien d’extraordinaire et la tarification semblait pourtant raisonnable sur le papier : 3 dollars par million de tokens en entrée, 6 dollars au-delà de 200 000 tokens dans la fenêtre de contexte. Et pourtant, la note a grimpé.
En creusant, Chopra réalise que la majeure partie de ces tokens n’avait pas réellement besoin d’exister. L’essentiel du volume venait de métadonnées générées automatiquement, schémas JSON verbeux, modèles imbriqués dans les réponses API, colonnes de base de données répétées à l’identique. « Si l’invite de commande de votre système contient un champ de date ou un identifiant unique généré automatiquement qui change à chaque session, vous subissez systématiquement une erreur de cache. Cela va faire exploser vos coûts », résume-t-il.


L’ingénieur s’est alors lancé pendant plusieurs mois dans une traque méthodique de la compression de tokens. Le résultat s’appelle Headroom, présenté fin mai 2026 en marge de l’Open Source Summit de la Linux Foundation. Selon ses estimations, jusqu’à 90 % des tokens envoyés à un LLM dans ce type de workflow sont tout simplement superflus.

Comment Headroom compresse sans perdre
Headroom est donc un proxy open source qui s’intercale entre l’outil de l’ingénieur et le LLM. Il tourne en local, sous Python ou Node, et s’active en encapsulant n’importe quel agent via une commande simple.
Son fonctionnement repose sur plusieurs couches. Un premier module baptisé CacheAligner identifie ce qui a changé dans les données d’entrée par rapport à la session précédente, et ne transmet que les nouvelles informations, évitant de réinjecter des blocs entiers de contexte quasi identiques à chaque requête. Ensuite, un routeur oriente les données vers des compresseurs spécialisés : un compresseur pour le code, un compresseur pour les sorties d’API, un compresseur pour le web.
L’originalité de Headroom réside dans son dernier module, le CCR (Compression, Cache et Récupération) : les zones compressées sont marquées, et si le modèle a besoin de consulter les données originales, il peut les récupérer via un outil MCP dédié. Le contexte non compressé reste stocké localement. En d’autres termes, la compression est réversible.
Un besoin réel, un marché qui s’éveille
Pour l’heure, Headroom n’en est qu’à sa version 0.22, encore brute de l’aveu de son créateur, mais le projet récolte déjà 2 000 étoiles sur GitHub et a permis à ses utilisateurs d’économiser environ 700 000 dollars depuis le premier prototype en janvier 2026. Parmi les premiers adoptants : plusieurs équipes internes de Netflix, ainsi que de nombreux projets externes.
Ce succès précoce n’est pas un hasard. La question du coût des tokens est devenue centrale à mesure que les agents IA prolifèrent en entreprise, et les dérapages budgétaires commencent à s’accumuler. Headroom n’est d’ailleurs pas seul sur ce créneau : comme le rappelle le média britannique The Register, d’autres solutions similaires ont émergé, comme Token Company (Y Combinator), RTK ou LeanCTX côté open source. Anthropic lui-même a récemment ajouté des fonctionnalités pour aider ses utilisateurs à mieux piloter leur consommation.
Aussi, l’enjeu dépasse la simple optimisation comptable. Des chercheurs de Chroma ont montré que les performances des LLM se dégradent à mesure que le contexte s’allonge, un phénomène qu’ils ont baptisé « dégradation du contexte ». Moins de tokens, c’est souvent un modèle qui répond mieux, plus vite, et pour moins cher.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Toute l'actu tech en un clin d'œil
Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !
Pour ne rien manquer de l’actualité, suivez Numerama sur Google !












