C’est le revers de la médaille de l’intelligence artificielle générative. Le fonctionnement d’une IA repose sur un double besoin en mémoire vive (RAM). Elle doit, d’une part, charger le « cerveau » (ses paramètres de base, qui pèsent plusieurs dizaines/centaines de giga-octets), Et d’autre part maintenir un espace de travail actif où elle stocke la représentation mathématique de vos requêtes pour ne pas perdre le fil.
Mais l’essor rapide de l’IA générative a causé un problème : le marché de la RAM est sous tension pour répondre aux besoins insatiables du secteur. La situation est telle, d’ailleurs, qu’elle a même fini par engendrer une crise : les prix s’envolent, avec des multiplications par quatre ou cinq, et qui débordent sur les autres secteurs de l’informatique.
PolarQuant, l’algorithme salvateur de l’IA générative ?
Il y a cependant de l’espoir pour la tech. Non pas en raison de la disparition de certains services d’intelligence artificielle générative (à l’image de l’abandon de Sora par OpenAI, son outil de génération de vidéos synthétiques), mais de progrès récents dans le domaine de la recherche. Il y a en tout cas une ouverture proposée par Google.
L’entreprise américaine a publié le 24 mars 2026 un article technique sur un nouveau projet baptisé TurboQuant. Son titre, « TurboQuant : redéfinir l’efficacité de l’IA grâce à une compression extrême », annonce la couleur : il s’agit de comprimer les données présentes dans la mémoire à court terme des IA, sans leur faire perdre en intelligence.
L’enjeu, ici, tourne autour d’une notion appelée « key-value caching ». Cette technique sert à accélérer le processus de mémorisation des informations importantes issues des étapes précédentes de l’IA, rappelle Hugging Face. Cela, afin d’éviter de tout recalculer à partir de zéro. On réutilise l’existant, ce qui rend la génération plus rapide et plus efficace.

Il faut voir cette mise en cache clé-valeur comme l’espace de travail immédiat de l’IA. Plus on lui donne un texte chargé à traiter, plus on discute longuement avec elle, plus cet espace de travail se remplit. Pour éviter que cela déborde, il faut donc prévoir assez large pour stocker l’ensemble et retrouver les informations instantanément.
Jusqu’à présent, l’industrie optait plutôt pour la surenchère : plus de puces mémoires ultra-rapides. Une orientation court-termiste, qui a provoqué la crise actuelle. Mais TurboQuant développe un tout autre axe : plutôt que de grossir encore et toujours cet espace de travail, pourquoi ne pas miniaturiser les données ? En somme, il s’agit de prendre le problème à l’envers.
Les performances de TurboQuant, un algorithme de compression taillé pour cette tâche, sont très prometteuses, au regard des résultats partagés par la branche Google Research. On parle en effet de réduire la taille de ce cache clé-valeur d’un facteur six au minimum, tout en garantissant une perte de précision littéralement nulle pour l’IA.
L’astuce PolarQuant, pour mémoriser les données autrement
Pour réussir cette prouesse, Google a repensé la façon dont les modèles de langage (LLM), c’est-à-dire les systèmes qui permettent aux chatbots de marcher, rangent leurs informations. En l’espèce, l’entreprise américaine s’est basée sur les mathématiques, et plus particulièrement la géométrie, pour optimiser la place occupée par les données.
PolarQuant, qui est le nom de cette méthode « s’attaque au problème du surcoût de mémoire en adoptant une approche radicalement différente. Au lieu d’examiner un vecteur en mémoire à l’aide de coordonnées standards (c’est-à-dire X, Y, Z) qui indiquent la distance sur chaque axe, PolarQuant convertit ce vecteur en coordonnées polaires », est-il expliqué.

« C’est comparable au fait de remplacer l’instruction ‘Faites 3 pas vers l’Est, puis 4 pas vers le Nord’ par ‘Faites 5 pas au total avec un angle de 37 degrés’. Il en résulte deux éléments d’information : le rayon, qui indique la force de la donnée centrale, et l’angle, qui indique la direction ou la signification de cette donnée », ajoute Google.
« Étant donné que la répartition des angles est connue et très concentrée, le modèle n’a plus besoin d’effectuer la coûteuse étape de normalisation des données. En effet, il place les données sur une grille ‘circulaire’ fixe et prévisible, dont les limites sont déjà connues, plutôt que sur une grille ‘carrée’ où les limites changent constamment », complète l’entreprise.
Ce faisant, PolarQuant élimine le surcoût de mémoire imposé par les méthodes traditionnelles. C’est ce qui permet, au final, à TurboQuant de ramener la taille du cache clé-valeur à seulement 3 bits, « sans nécessiter d’apprentissage ni de réglage fin, et sans compromettre la précision du modèle, tout en offrant une exécution plus rapide que le LLM d’origine. »
Le malheur des fabricants de mémoire fera-t-il le bonheur des processeurs ?
Si les promesses de Google Research se concrétisent à grande échelle, les conséquences économiques pourraient être colossales. Avec une solution logicielle pure comme TurboQuant, le besoin en mémoire vive chute drastiquement pour un résultat identique. D’aucuns pensent que cela pourrait être un « bain de sang » pour le secteur de la RAM.
Si l’IA a besoin de six fois moins de RAM, la demande frénétique qui fait exploser les prix pourrait brutalement retomber et mettre un coup d’arrêt à la vague qui porte les fabricants de composants, comme SK Hynix, Micron ou Samsung. À l’inverse, elle pourrait refroidir la poussée de fièvre à laquelle on a assisté sur les prix, ce qui ravira le grand public.
Mais tout n’est peut-être pas encore arrangé. En informatique, la résolution d’un goulot d’étranglement déplace parfois simplement le souci ailleurs. En levant le problème de la mémoire, les données compressées seront encore plus nombreuses à traiter, et pourraient affluer plus rapidement. Dès lors, le bouchon pourrait se former dans le « cerveau » de l’IA.
En effet, les processeurs de calcul pourraient alors se retrouver à leur tour sous tension. Peut-être passera-t-on alors d’une crise de la RAM à une crise de la puissance de calcul. Réponse dans les mois à venir.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Toute l'actu tech en un clin d'œil
Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !
Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !











