Google TurboQuant : l'algorithme qui divise par 6 la RAM des IA

Résumé par IA, vérifié par Numerama

Google dévoile TurboQuant, qui compresse le cache key-value des LLM et en réduit l’usage de RAM d’au moins ×6.
Sa méthode PolarQuant réexprime les vecteurs en coordonnées polaires pour quantifier le cache à 3 bits.
Si elle se généralise, cette optimisation pourrait faire chuter la demande de RAM et déplacer le goulot d’étranglement vers la puissance de calcul.

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Les intelligences artificielles ont un appétit insatiable pour la mémoire vive, ce qui provoque une crise matérielle sans précédent. Avec son nouvel algorithme TurboQuant, Google a peut-être trouvé la parade mathématique pour diviser ce besoin par six.

C’est le revers de la médaille de l’intelligence artificielle générative. Le fonctionnement d’une IA repose sur un double besoin en mémoire vive (RAM). Elle doit, d’une part, charger le « cerveau » (ses paramètres de base, qui pèsent plusieurs dizaines/centaines de giga-octets), Et d’autre part maintenir un espace de travail actif où elle stocke la représentation mathématique de vos requêtes pour ne pas perdre le fil.

Mais l’essor rapide de l’IA générative a causé un problème : le marché de la RAM est sous tension pour répondre aux besoins insatiables du secteur. La situation est telle, d’ailleurs, qu’elle a même fini par engendrer une crise : les prix s’envolent, avec des multiplications par quatre ou cinq, et qui débordent sur les autres secteurs de l’informatique.

PolarQuant, l’algorithme salvateur de l’IA générative ?

Il y a cependant de l’espoir pour la tech. Non pas en raison de la disparition de certains services d’intelligence artificielle générative (à l’image de l’abandon de Sora par OpenAI, son outil de génération de vidéos synthétiques), mais de progrès récents dans le domaine de la recherche. Il y a en tout cas une ouverture proposée par Google.

L’entreprise américaine a publié le 24 mars 2026 un article technique sur un nouveau projet baptisé TurboQuant. Son titre, « TurboQuant : redéfinir l’efficacité de l’IA grâce à une compression extrême », annonce la couleur : il s’agit de comprimer les données présentes dans la mémoire à court terme des IA, sans leur faire perdre en intelligence.

L’enjeu, ici, tourne autour d’une notion appelée « key-value caching ». Cette technique sert à accélérer le processus de mémorisation des informations importantes issues des étapes précédentes de l’IA, rappelle Hugging Face. Cela, afin d’éviter de tout recalculer à partir de zéro. On réutilise l’existant, ce qui rend la génération plus rapide et plus efficace.

Les Prime Day sont là ! Yuka Mini 2 500

Jusqu’au 26 juin, le Yuka Mini 2 500 tombe sous les 550 € ! jusqu’à 500m², zéro perte de signal, sans RTK, Traitement d’Image à Trois Caméras boosté à l’IA… Bref, ne tondez plus votre pelouse en 2026 !

L’essor de l’IA générative a aussi mis sens dessus dessous le marché de la mémoire vive. // Source : Canva

Il faut voir cette mise en cache clé-valeur comme l’espace de travail immédiat de l’IA. Plus on lui donne un texte chargé à traiter, plus on discute longuement avec elle, plus cet espace de travail se remplit. Pour éviter que cela déborde, il faut donc prévoir assez large pour stocker l’ensemble et retrouver les informations instantanément.

Jusqu’à présent, l’industrie optait plutôt pour la surenchère : plus de puces mémoires ultra-rapides. Une orientation court-termiste, qui a provoqué la crise actuelle. Mais TurboQuant développe un tout autre axe : plutôt que de grossir encore et toujours cet espace de travail, pourquoi ne pas miniaturiser les données ? En somme, il s’agit de prendre le problème à l’envers.

Les performances de TurboQuant, un algorithme de compression taillé pour cette tâche, sont très prometteuses, au regard des résultats partagés par la branche Google Research. On parle en effet de réduire la taille de ce cache clé-valeur d’un facteur six au minimum, tout en garantissant une perte de précision littéralement nulle pour l’IA.

L’astuce PolarQuant, pour mémoriser les données autrement

Pour réussir cette prouesse, Google a repensé la façon dont les modèles de langage (LLM), c’est-à-dire les systèmes qui permettent aux chatbots de marcher, rangent leurs informations. En l’espèce, l’entreprise américaine s’est basée sur les mathématiques, et plus particulièrement la géométrie, pour optimiser la place occupée par les données.

PolarQuant, qui est le nom de cette méthode « s’attaque au problème du surcoût de mémoire en adoptant une approche radicalement différente. Au lieu d’examiner un vecteur en mémoire à l’aide de coordonnées standards (c’est-à-dire X, Y, Z) qui indiquent la distance sur chaque axe, PolarQuant convertit ce vecteur en coordonnées polaires », est-il expliqué.

« C’est comparable au fait de remplacer l’instruction ‘Faites 3 pas vers l’Est, puis 4 pas vers le Nord’ par ‘Faites 5 pas au total avec un angle de 37 degrés’. Il en résulte deux éléments d’information : le rayon, qui indique la force de la donnée centrale, et l’angle, qui indique la direction ou la signification de cette donnée », ajoute Google.

« Étant donné que la répartition des angles est connue et très concentrée, le modèle n’a plus besoin d’effectuer la coûteuse étape de normalisation des données. En effet, il place les données sur une grille ‘circulaire’ fixe et prévisible, dont les limites sont déjà connues, plutôt que sur une grille ‘carrée’ où les limites changent constamment », complète l’entreprise.

Ce faisant, PolarQuant élimine le surcoût de mémoire imposé par les méthodes traditionnelles. C’est ce qui permet, au final, à TurboQuant de ramener la taille du cache clé-valeur à seulement 3 bits, « sans nécessiter d’apprentissage ni de réglage fin, et sans compromettre la précision du modèle, tout en offrant une exécution plus rapide que le LLM d’origine. »

Le malheur des fabricants de mémoire fera-t-il le bonheur des usagers ?

Si les promesses de Google Research se concrétisent à grande échelle, les conséquences économiques pourraient être colossales. Avec une solution logicielle pure comme TurboQuant, le besoin en mémoire vive chute drastiquement pour un résultat identique. D’aucuns pensent que cela pourrait être un « bain de sang » pour le secteur de la RAM.

Si l’IA a besoin de six fois moins de RAM, la demande frénétique qui fait exploser les prix pourrait brutalement retomber et mettre un coup d’arrêt à la vague qui porte les fabricants de composants, comme SK Hynix, Micron ou Samsung. À l’inverse, elle pourrait refroidir la poussée de fièvre à laquelle on a assisté sur les prix, ce qui ravira le grand public.

Mais tout n’est peut-être pas encore arrangé. En informatique, la résolution d’un goulot d’étranglement déplace parfois simplement le souci ailleurs. En levant le problème de la mémoire, les données compressées seront encore plus nombreuses à traiter, et pourraient affluer plus rapidement. Dès lors, le bouchon pourrait se former dans le « cerveau » de l’IA.

En effet, les processeurs de calcul pourraient alors se retrouver à leur tour sous tension. Peut-être passera-t-on alors d’une crise de la RAM à une crise de la puissance de calcul. Réponse dans les mois à venir.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Le futur n’attend pas : anticipez l’avenir des nouvelles technologies et de l’IA en lisant gratuitement ToujoursPlus, chaque jeudi dans votre boîte mail !

Tout comprendre à La guerre de l’IA