Coût des LLM : une nouvelle architecture IA pour réduire les calculs

Résumé par IA, vérifié par Numerama

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Le 5 mai 2026, la startup américaine Subquadratic a présenté SubQ, un nouveau modèle de langage reposant sur une attention dite « sous-quadratique ». Une approche qui promet de réduire drastiquement les coûts de calcul des LLM tout en leur permettant de gérer des contextes gigantesques.

Cette nouvelle architecture pourrait-elle bouleverser les LLM tels que nous les connaissons ? Le 5 mai 2026, la jeune pousse américaine Subquadratic a dévoilé SubQ, un nouveau modèle de langage présenté comme le premier à reposer « sur une architecture d’attention parcimonieuse entièrement sous-quadratique ».

Si ce terme peut paraître relativement obscur au premier abord, il s’agit avant tout d’une architecture capable de gérer des contextes très longs à coût réduit. En clair, plutôt que de rivaliser avec OpenAI ou Anthropic sur la taille des modèles, la firme s’est attaquée au moteur même qui permet à ces systèmes de fonctionner.

Subquadratic a annoncé SubQ le 5 mai 2026. // Source : @alex_whedon sur X

En quoi consiste cette architecture de LLM ?

Les grands modèles de langage (LLM) actuels, comme GPT, Claude ou Gemini, reposent quasiment tous sur la même brique de base : le Transformer. À l’intérieur de ce type de réseau, une opération joue un rôle central pour traiter du texte ou du code : l’« attention ».

En effet, le modèle ne traite pas chaque mot séparément : lorsqu’il lit un texte, il compare en permanence les mots entre eux afin d’identifier quelles parties de la phrase ou du document sont les plus importantes à prendre en compte. C’est ce mécanisme qui lui permet de tenir compte du contexte global plutôt que de ne regarder que les mots immédiatement voisins.

Et votre vie numérique devient sereine

Bitdefender Premium Security est une solution de cybersécurité européenne qui vous protège automatiquement contre les pirates et toutes les menaces du web. Profitez de vos activités en ligne en toute tranquillité

Le problème : cette opération d’attention devient extrêmement coûteuse lorsque le contexte s’allonge. Dans un Transformer classique, chaque mot doit être comparé à tous les autres mots présents dans la fenêtre de contexte afin de déterminer lesquels sont les plus pertinents. Si l’on double la taille du texte traité, le nombre d’interactions n’est donc pas multiplié par deux, mais approximativement par quatre. Les coûts de calcul et de mémoire explosent alors très rapidement : on parle alors de complexité « quadratique ».

SubQ repose sur une architecture d'attention parcimonieuse sous-quadratique. // Source : Subquadratic — SubQ repose sur une architecture d’attention parcimonieuse sous-quadratique. // Source : Subquadratic

C’est précisément cette limite qui rend les très longues fenêtres de contexte si difficiles à exploiter aujourd’hui. Même si des modèles comme GPT, Claude ou Gemini annoncent des centaines de milliers, voire des millions de tokens, utiliser réellement de telles longueurs reste extrêmement coûteux en puissance de calcul, en mémoire vidéo et en énergie.

L’approche présentée par SubQ cherche donc à contourner ce problème en réduisant drastiquement le nombre de comparaisons nécessaires entre les tokens. Plutôt que de faire dialoguer chaque mot avec l’intégralité du texte, l’architecture sélectionne uniquement une partie des interactions jugées pertinentes : c’est le principe de l’« attention parcimonieuse » (sparse attention). Concrètement, cela signifie que la matrice d’attention n’est plus dense : chaque token n’interagit plus avec tous les autres, mais seulement à un sous‑ensemble de positions déterminé par une structure précise.

Le terme « sous-quadratique » signifie alors que le coût de calcul augmente moins vite que dans un Transformer classique lorsque le contexte grandit. En théorie, cela permettrait de traiter des documents beaucoup plus longs — bases de code entières, livres complets, longues conversations ou vidéos transcrites — sans faire exploser les besoins matériels.

Une approche prometteuse, mais encore difficile à valider

Pour autant, l’idée d’une attention plus efficace n’est pas nouvelle. Depuis plusieurs années, des variantes dites « sparse », « linear » ou « récurrentes » sont explorées afin de réduire le coût des Transformers. Mais la difficulté consiste généralement à conserver les performances du modèle tout en diminuant la complexité du calcul. Un point qui n’est d’ailleurs pas sans susciter du scepticisme depuis l’annonce de SubQ.

La communauté reste prudente pour une raison simple : la firme avance des promesses extrêmement ambitieuses. SubQ affirme notamment pouvoir gérer jusqu’à 12 millions de tokens de contexte, tout en annonçant des performances jusqu’à 52 fois supérieures à FlashAttention sur des contextes d’un million de tokens. L’entreprise évoque également des gains d’efficacité massifs, avec jusqu’à 1 000 fois moins d’opérations de calcul dans certains scénarios.

Un benchmark publié par l'entreprise. // Source : Subquadratic — Un benchmark publié par l’entreprise. // Source : Subquadratic

Dans le même temps, le modèle n’est pas ouvert, les benchmarks indépendants demeurent limités, et l’histoire récente de l’IA regorge de projets promettant des architectures « quasi linéaires » qui finissaient par perdre en performances une fois testés sérieusement à grande échelle.

À cela s’ajoutent des contraintes théoriques difficiles à contourner. Certaines opérations fondamentales des modèles de langage — par exemple lorsqu’il faut retrouver précisément une information au sein d’un contexte gigantesque — semblent devenir naturellement plus coûteuses à mesure que la taille du contexte augmente. Réduire fortement cette complexité sans dégrader la qualité du raisonnement, de la mémoire ou de la récupération d’information reste donc un défi majeur.

Pour l’instant, SubQ apparaît donc davantage comme une démonstration prometteuse que comme une rupture déjà validée. Reste désormais à voir si l’architecture tiendra ses promesses face aux benchmarks ouverts, aux audits indépendants et aux usages réels à grande échelle. Subquadratic indique par ailleurs que SubQ est déjà accessible en accès anticipé via une API long contexte destinée aux développeurs, ainsi qu’à travers un outil orienté programmation baptisé « SubQ Code ».

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !