Une tour à 15 274 € posée sous un bureau, deux cartes graphiques AMD, et l’intégralité d’une chaîne de production logicielle qui tourne sans jamais toucher au cloud. On a voulu savoir ce que permet vraiment une machine d’IA en local.

Quand on pense intelligence artificielle, on imagine des hangars remplis de serveurs quelque part dans le désert du Nevada. Pourtant, en 2026, on peut faire tourner plusieurs IA en même temps sur une seule tour qui ressemble à un PC de bureau classique. C’est ce qu’on a testé sur une machine prêtée par AMD, calée sous un bureau.

L’idée de départ : combien faut-il dépenser, et que peut-on faire en sortie, pour se passer des abonnements cloud type ChatGPT ou Claude, dont la facture monte vite ? Pour beaucoup, un abonnement à 20 € par mois suffit largement. Mais dès qu’on atteint des factures de plusieurs milliers d’euros par mois sur ces plateformes, la question de la rentabilité d’une machine locale se pose vraiment. En ce moment, toutes les entreprises un peu sérieuses ont un double usage, entre l’IA dans le cloud et l’IA locale.

Ce qu’il y a dans une tour à 15 274 €

Le point de départ, c’est une configuration vendue un peu plus de 7 000 € par Infomax, qu’on a poussée au maximum. Infomax Paris est un expert en intégration de PC Gamer et de PC professionnels, spécialisé dans l’assemblage de configurations gaming sur mesure. Située dans le 12ᵉ arrondissement de Paris, l’entreprise propose une large gamme de PC adaptés aux besoins des joueurs et des professionnels.

Au cœur de la machine, un processeur AMD Ryzen Threadripper 9980X. C’est un processeur pour station de travail qui embarque 64 cœurs et 128 threads : là où un bon PC grand public tourne autour de 8 à 16 cœurs, celui-ci en aligne donc quatre à huit fois plus. Son rôle ici : orchestrer les tâches d’IA et les répartir intelligemment. AMD le commercialise autour de 5 000 dollars (environ 4 600 € HT).

Viennent ensuite deux cartes graphiques Gigabyte AMD Radeon AI Pro R9700, dotées chacune de 32 gigaoctets de mémoire vidéo. Attention, ce ne sont pas des cartes de jeu : vous ne lancerez jamais League of Legends dessus. AMD les a conçues pour le calcul d’IA en local, et les positionne à 1 299 dollars pièce (environ 1 200 € HT), un tarif qui en fait, selon le constructeur, la carte avec le plus de mémoire vidéo sous la barre des 1 500 dollars. Ces 32 Go par carte servent à garder un modèle d’IA entier en mémoire, sans aller puiser sur le disque, ce qui accélère le traitement.

Voici la fameuse tour à plus de 15000 € : deux GPU dédiées à l'IA, un gros CPU et beaucoup (beaucoup) de RAM. // Source : Alfred Tertais pour Numerama
Voici la fameuse tour à plus de 15000 € : deux GPU dédiées à l’IA, un gros CPU et beaucoup (beaucoup) de RAM.

Pour ne pas freiner ces composants, on a ajouté 128 gigaoctets de RAM ECC (de la mémoire pour serveur, qui corrige automatiquement les erreurs) et 2 téraoctets de stockage NVMe rapide. Total de la note : 15 274 €. Un petit billet, oui, mais on va voir ce qu’on achète.

ComposantRéférence
BoîtierFSP Fortron U500 – Noir (5 ventilos)
ProcesseurAMD Ryzen Threadripper 9980X (4/5.4 64c/128t)
Carte mèreASUS PRO WS TRX50-Sage WiFi (WiFi Bluetooth)
MémoireMémoire ECC 128 Go 4800 MHz
Ventirad / WatercoolingSilverstone SST-XE360-TR5 – Noir
Carte graphiqueGigabyte AMD Radeon AI PRO R9700 Creator 32 Go
Seconde carte graphiqueGigabyte AMD Radeon AI PRO R9700 Creator 32 Go
Disque principalSamsung SSD 9100 PRO M.2 PCIe 5.0 NVMe 2 To
AlimentationCORSAIR HX1500i 80 Platinum ATX3.0 – V2025

Premièrement, on a rendu la machine accessible depuis n’importe où : la formule classique veut que le cloud, ce soit « l’ordinateur de quelqu’un d’autre » : là, c’est exactement pareil, sauf que l’ordinateur est le nôtre, posé sous le bureau. Votre Mac ou votre portable ne sert que de télécommande : tout le calcul reste sur le processeur et les deux cartes AMD. Rien ne sort de la pièce.

Côté usage, la règle d’or de cette installation tient en une phrase : une carte, une tâche. On ne répartit jamais un seul modèle sur les deux cartes en même temps, parce que ça les bloque mutuellement (un « deadlock », quand deux processus s’attendent l’un l’autre sans fin). Dans notre configuration, les cartes travaillent en parallèle, chacune sur leur poste. Par exemple, pendant que l’une dessine, l’autre écrit.

Il est possible de faire tourner un seul modèle sur deux cartes, mas cela nécessite un bridge, non disponible sur cette carte-mère. // Source : Alfred Tertais pour Numerama
Les deux cartes graphiques Gigabyte AMD Radeon AI PRO R9700 Creator embarquant chacune 32 Go de VR.

Cette indépendance vis-à-vis du cloud est tout l’argument d’AMD avec sa plateforme logicielle ROCm, qui permet à ses cartes graphiques de faire tourner des modèles d’IA puissants. Concrètement, l’usage devient gratuit une fois la machine payée, les données restent privées, et tout continue de tourner même sans connexion Internet. Et on s’épargne les grosses limites de temps d’usage / tokens des services de LLM traditionnels, comme Claude ou ChatGPT.

Une équipe de logiciels, chacun son métier

Pour transformer cette tour en atelier, on a installé une série de logiciels gratuits et open source, posés sur Linux Ubuntu (oui, on a commencé par retirer Windows pour travailler sereinement). Chacun a un rôle précis, comme dans une vraie PME.

  • Ollama fait tourner les modèles de langage, ces IA qui lisent et écrivent du texte. On y a chargé trois modèles chinois de la famille Qwen : un gros pour les résumés et l’écriture, un spécialisé dans le code, un petit et léger pour l’autocomplétion.
  • ComfyUI est le studio graphique. Il génère des images en six secondes environ, sur la deuxième carte.
  • Coqui XTTS-v2 fournit la voix, une voix française synthétique au rendu naturel. Astuce : on la fait tourner sur le processeur, pas sur les cartes graphiques. Le Threadripper a 128 threads, il a de la marge, et ça libère les deux cartes pour le texte et l’image.
  • OpenCode est l’agent développeur, l’équivalent open source de Claude Code. C’est le chef d’orchestre : il planifie, lit le code, l’écrit, lance des commandes tout seul, le tout branché sur les modèles locaux.

S’ajoutent des utilitaires qui font le liant : ffmpeg pour le montage vidéo, Docker pour faire tourner chaque logiciel dans une « boîte » isolée et reproductible, et bien sûr ROCm, le logiciel d’AMD qui fait parler les modèles et les cartes graphiques.

Le test grandeur nature : coder une application Numerama

Pour montrer que ce n’est pas une simple démo de labo, on a demandé à la machine de construire un vrai produit : une application web Numerama, capable de lire nos articles, avec des résumés et des vidéos générés par l’IA locale. Et c’est la machine elle-même qui a écrit son propre code, du brief au déploiement, sans jamais sortir de la tour.

La chaîne se déroule en cinq temps. On commence par briefer le gros modèle Qwen en mode « Plan », qui pose des questions jusqu’à ce que le projet soit carré, comme un chef de projet. Pendant ce temps, la deuxième carte génère déjà les visuels. Ensuite, l’agent OpenCode écrit l’application sous nos yeux.

Une fois que tout est prêt, le code s'écrit automatiquement. Sûrement l'une des parties les plus impressionantes de l'IA en local.
Une fois que tout est prêt, le code s’écrit automatiquement. Sûrement l’une des parties les plus impressionantes de l’IA en local.

Puis 17 tests automatiques (via Playwright, un outil open source de Microsoft) vérifient que tout fonctionne. Enfin, on emballe le tout dans un conteneur Docker et on ouvre un accès via Cloudflare pour faire tester l’application à de vrais utilisateurs.

Le résultat : une application de lecture propre, avec recherche, un onglet qui transforme les articles en courtes vidéos verticales, un onglet vidéo qui reprend les productions YouTube, et un résumé d’article généré en temps réel. Le tout codé en six heures par la seule machine sous le bureau.

L'application Numerama après 6 heures de travail de la WorkStation. Tout est fonctionnel, avec de nombreuses fonctionnalités inédites.
L’application Numerama après 6 heures de travail de la WorkStation. Tout est fonctionnel, avec de nombreuses fonctionnalités inédites.

Une fois l’application en ligne, l’IA locale continue de travailler à l’intérieur. Le résumé d’article s’écrit mot par mot, en streaming, comme avec ChatGPT, mais calculé sur place. Le regroupement d’articles par thème s’appuie sur des « embeddings », une méthode qui mesure à quel point deux textes parlent de la même chose. Et le générateur de courtes vidéos mobilise les quatre IA en même temps : le modèle Qwen écrit un script, la voix XTTS-v2 le lit, ComfyUI sort des images, et ffmpeg assemble le tout en format vertical. On ne va pas vous mentir : c’est la partie la moins aboutie, parce que les IA peinent encore sur le montage vidéo.

Pour qui, et à quel prix réel

Faut-il vraiment dépenser 15 274 € ? Pas forcément : ce qui compte, c’est l’architecture et ce que chaque composant débloque, plus que la puissance brute.

Côté processeur, le Threadripper 9970X (32 cœurs, environ 2 500 dollars) ou le 9960X (24 cœurs, environ 1 500 dollars) constituent déjà une base solide pour une fraction du prix.

Cette tour s’adresse clairement aux professionnels qui gagnent leur vie avec leur machine : développeurs, studios, équipes qui font tourner plusieurs modèles d’IA en permanence et veulent couper les abonnements cloud ou les associer à du local. Pour un usage occasionnel, l’abonnement à 20 € reste imbattable. Mais une fois la configuration initiale digérée, on comprend mieux ce que cette IA posée sous le bureau, gratuite à l’usage et coupée d’Internet, peut vraiment changer dans une chaîne de production.

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+
Toute l'actu tech en un clien d'oeil

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Certains liens de cet article sont affiliés. On vous explique tout ici.