Google dévoile les TPU 8t et TPU 8i, les puces qui lui donnent un gros avantage en IA

Résumé par IA, vérifié par Numerama

Google dévoile ses puces TPU 8ᵉ génération, TPU 8t et TPU 8i, séparant les phases d'entraînement et d'inférence pour optimiser l'IA.
Le TPU 8t, associé à Broadcom, cible l'entraînement massif, tandis que le TPU 8i, conçu avec MediaTek, se concentre sur une exécution rapide.
Avec ses puces et processeurs maison, Google réduit ses coûts, impressionne Elon Musk et sécurise des clients majeurs comme Anthropic et potentiellement Apple.

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Google vient de présenter la 8ᵉ génération de ses puces maison dédiées à l’intelligence artificielle : les TPU 8t et TPU 8i. Le géant du web mise sur deux puces et sépare la phase d’apprentissage et la phase d’exécution pour la première fois afin d’optimiser les coûts et d’augmenter sa capacité à être indépendant du reste de l’industrie, Nvidia compris.

Quand on parle d’intelligence artificielle, les noms d’OpenAI, Anthropic ou encore Nvidia (pour le matériel) reviennent en boucle, mais un acteur est souvent oublié : Google.

Le géant du web, qui propose avec son service Gemini des modèles parmi les meilleurs du marché, est peut-être celui qui dispose de l’écosystème le plus complet de l’industrie. En plus de son chatbot, de ses services (Gmail, Photos, Docs…), de son système d’exploitation (Android), de ses modèles propriétaires et de ses modèles open source, Google a une autre carte secrète : il conçoit ses propres puces, les TPU (Tensor Processing Units).

L’entreprise a dévoilé le 22 avril 2026 la 8ᵉ génération de ses puces hyperspécialisées pour l’IA : les TPU 8t et TPU 8i. Il y a pour la première fois deux puces et Google vient peut-être de gagner un avantage majeur dans la course à l’intelligence artificielle.

We’re introducing our eighth generation of TPUs. This time, we’re taking a dual chip approach: TPU 8t, optimized for training, and TPU 8i, optimized for inference.

💪TPU 8t achieves nearly three times the compute performance per pod over our previous generation, Ironwood.
⚡TPU… pic.twitter.com/SdVGBCjd4V
— Google (@Google) April 22, 2026

Google sépare le « t » et le « i » et veut optimiser l’intelligence artificielle comme personne avant lui

Pour faire fonctionner une IA comme ChatGPT ou Gemini, il y a, en forçant le trait de la vulgarisation, pour simplifier, deux étapes majeures :

Il faut d’abord entraîner les modèles (le « t » pour training) : c’est la phase où l’on envoie des milliards de données au modèle pour qu’il apprenne. Cette étape demande une force brute colossale, d’où le succès récent de Nvidia.
Ensuite, il y a l’inférence (le « i »). Il s’agit du nom donné à l’exécution d’un modèle, c’est le moment où vous posez une question à l’IA et qu’elle vous répond. Ici, ce qui compte est la vitesse de réaction et la latence. Sa capacité à aller piocher les réponses au bon endroit.

Le TPU 8t en comparaison à son prédécesseur qui n'était pas optimisé seulement pour l'entraînement. — Le TPU 8t en comparaison à son prédécesseur qui n’était pas optimisé seulement pour l’entraînement. // Source : Google

Jusqu’à présent, l’industrie construisait des puces capables de faire les deux. Mais Google estime désormais qu’il s’agit d’une perte de ressources : les futurs modèles ne vont pas juste générer du texte, ils vont discuter entre eux, réfléchir, planifier des tâches complexes 24 heures sur 24. Cette nouvelle ère exige des composants sur mesure capables de consommer moins pendant l’inférence.

Le TPU 8t est un monstre de puissance brute conçu avec Broadcom. Google peut relier jusqu’à 9 600 puces entre elles pour créer un superordinateur. Grâce à un réseau propriétaire baptisé Virgo, ces puces partagent 2 pétaoctets de mémoire (HBM) pour délivrer une puissance de calcul de 121 exaflops (c’est considérable). Son but ? Entraîner les futurs modèles Gemini ou Claude.

À l’inverse, le TPU 8i (conçu avec MediaTek) intègre de la mémoire ultra-rapide directement sur la puce. Il embarque 288 Go de mémoire classique (HBM) couplés à 384 Mo de mémoire très haute vitesse (SRAM) intégrée au processeur, soit trois fois plus qu’avant, et réduit la latence de 50 %. Son but ? Exécuter les raisonnements de l’IA le plus vite possible. Google promet une amélioration du rapport performance/prix de 80 % pour l’utilisateur final et, techniquement parlant, vient de gagner en indépendance face à des géants comme Nvidia.

Elon Musk impressionné, Anthropic en client : ne sous-estimez pas Google

En utilisant son propre matériel (qui est désormais piloté par ses propres processeurs Axion basés sur ARM et non plus par l’architecture Intel/AMD classique), Google maîtrise sa chaîne de bout en bout. Ses coûts baissent drastiquement, ce qui lui donne un avantage financier colossal pour amortir les coûts de développement de Gemini.

Sur X, Elon Musk a lui-même reconnu que « les TPU sont sous-cotés », soulignant à demi-mot la qualité de l’ingénierie de Google face au quasi-monopole de Nvidia. Ce n’est pas la première fois que le patron de xAI salue les efforts de Google alors qu’il se veut plus dur avec OpenAI et Anthropic.

TPUs are underrated
— Elon Musk (@elonmusk) April 22, 2026

À propos d’Anthropic, d’ailleurs, le développeur de l’IA Claude fait partie des premiers clients des nouveaux TPU de Google. L’entreprise, dans laquelle Google a investi, s’est engagée à utiliser jusqu’à 1 million de ces puces pour ses propres IA à partir de 2027.

Pour répondre à cette demande vertigineuse, Google prévoit de produire 4,3 millions de TPU dès cette année, et vise plus de 35 millions d’unités d’ici 2028. Une véritable usine mondiale de l’IA. Un autre client devrait aussi miser sur cette architecture dans les prochains mois : Apple. Le créateur de l’iPhone va s’appuyer sur Google, sur Gemini et sur les TPU pour entamer sa révolution IA.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Pour ne rien manquer de l’actualité, suivez Numerama sur Google !

Tout comprendre à La guerre de l’IA