Cette nouvelle architecture pourrait-elle bouleverser les LLM tels que nous les connaissons ? Le 5 mai 2026, la jeune pousse américaine Subquadratic a dévoilé SubQ, un nouveau modèle de langage présenté comme le premier à reposer « sur une architecture d’attention parcimonieuse entièrement sous-quadratique ».
Si ce terme peut paraître relativement obscur au premier abord, il s’agit avant tout d’une architecture capable de gérer des contextes très longs à coût réduit. En clair, plutôt que de rivaliser avec OpenAI ou Anthropic sur la taille des modèles, la firme s’est attaquée au moteur même qui permet à ces systèmes de fonctionner.

En quoi consiste cette architecture de LLM ?
Les grands modèles de langage (LLM) actuels, comme GPT, Claude ou Gemini, reposent quasiment tous sur la même brique de base : le Transformer. À l’intérieur de ce type de réseau, une opération joue un rôle central pour traiter du texte ou du code : l’« attention ».
En effet, le modèle ne traite pas chaque mot séparément : lorsqu’il lit un texte, il compare en permanence les mots entre eux afin d’identifier quelles parties de la phrase ou du document sont les plus importantes à prendre en compte. C’est ce mécanisme qui lui permet de tenir compte du contexte global plutôt que de ne regarder que les mots immédiatement voisins.


Le problème : cette opération d’attention devient extrêmement coûteuse lorsque le contexte s’allonge. Dans un Transformer classique, chaque mot doit être comparé à tous les autres mots présents dans la fenêtre de contexte afin de déterminer lesquels sont les plus pertinents. Si l’on double la taille du texte traité, le nombre d’interactions n’est donc pas multiplié par deux, mais approximativement par quatre. Les coûts de calcul et de mémoire explosent alors très rapidement : on parle alors de complexité « quadratique ».

C’est précisément cette limite qui rend les très longues fenêtres de contexte si difficiles à exploiter aujourd’hui. Même si des modèles comme GPT, Claude ou Gemini annoncent des centaines de milliers, voire des millions de tokens, utiliser réellement de telles longueurs reste extrêmement coûteux en puissance de calcul, en mémoire vidéo et en énergie.
L’approche présentée par SubQ cherche donc à contourner ce problème en réduisant drastiquement le nombre de comparaisons nécessaires entre les tokens. Plutôt que de faire dialoguer chaque mot avec l’intégralité du texte, l’architecture sélectionne uniquement une partie des interactions jugées pertinentes : c’est le principe de l’« attention parcimonieuse » (sparse attention). Concrètement, cela signifie que la matrice d’attention n’est plus dense : chaque token n’interagit plus avec tous les autres, mais seulement à un sous‑ensemble de positions déterminé par une structure précise.
Le terme « sous-quadratique » signifie alors que le coût de calcul augmente moins vite que dans un Transformer classique lorsque le contexte grandit. En théorie, cela permettrait de traiter des documents beaucoup plus longs — bases de code entières, livres complets, longues conversations ou vidéos transcrites — sans faire exploser les besoins matériels.
Une approche prometteuse, mais encore difficile à valider
Pour autant, l’idée d’une attention plus efficace n’est pas nouvelle. Depuis plusieurs années, des variantes dites « sparse », « linear » ou « récurrentes » sont explorées afin de réduire le coût des Transformers. Mais la difficulté consiste généralement à conserver les performances du modèle tout en diminuant la complexité du calcul. Un point qui n’est d’ailleurs pas sans susciter du scepticisme depuis l’annonce de SubQ.
La communauté reste prudente pour une raison simple : la firme avance des promesses extrêmement ambitieuses. SubQ affirme notamment pouvoir gérer jusqu’à 12 millions de tokens de contexte, tout en annonçant des performances jusqu’à 52 fois supérieures à FlashAttention sur des contextes d’un million de tokens. L’entreprise évoque également des gains d’efficacité massifs, avec jusqu’à 1 000 fois moins d’opérations de calcul dans certains scénarios.

Dans le même temps, le modèle n’est pas ouvert, les benchmarks indépendants demeurent limités, et l’histoire récente de l’IA regorge de projets promettant des architectures « quasi linéaires » qui finissaient par perdre en performances une fois testés sérieusement à grande échelle.
À cela s’ajoutent des contraintes théoriques difficiles à contourner. Certaines opérations fondamentales des modèles de langage — par exemple lorsqu’il faut retrouver précisément une information au sein d’un contexte gigantesque — semblent devenir naturellement plus coûteuses à mesure que la taille du contexte augmente. Réduire fortement cette complexité sans dégrader la qualité du raisonnement, de la mémoire ou de la récupération d’information reste donc un défi majeur.
Pour l’instant, SubQ apparaît donc davantage comme une démonstration prometteuse que comme une rupture déjà validée. Reste désormais à voir si l’architecture tiendra ses promesses face aux benchmarks ouverts, aux audits indépendants et aux usages réels à grande échelle. Subquadratic indique par ailleurs que SubQ est déjà accessible en accès anticipé via une API long contexte destinée aux développeurs, ainsi qu’à travers un outil orienté programmation baptisé « SubQ Code ».
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Toute l'actu tech en un clin d'œil
Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !
Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !











