Meta TRIBE v2 : l'IA qui simule l'activité du cerveau humain sans IRM

Résumé par IA, vérifié par Numerama

Meta dévoile TRIBE v2, un modèle open source qui simule les schémas IRMf pour prédire l’activité cérébrale face à des images, des sons et du texte.
Son entraînement s’appuie sur plus de 500 heures d’IRMf collectées auprès d’environ 700 participants.
Le système généralise en « zero‑shot » à de nouveaux individus, tâches et langues.

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Le 26 mars 2026, Meta a dévoilé TRIBE v2, un modèle open source capable de prédire « la réaction du cerveau humain à presque tous les sons et images ». Son objectif : reproduire, sans passer par un scanner, les schémas d’activité cérébrale déclenchés par des contenus visuels, sonores ou textuels.

Ce n’est pas une simple avancée, mais un changement de dimension pour la « neuro-IA ». Le 26 mars 2026, Meta (Facebook, Instagram) a dévoilé TRIBE v2, un modèle open source capable de prédire « la réaction du cerveau humain à presque tous les sons et images » selon l’entreprise.

Concrètement, TRIBE v2 tente de deviner à quoi ressemble l’activité cérébrale lorsqu’une personne voit une image, regarde une scène de film, écoute un son ou lit une phrase. Plutôt que de brancher systématiquement un individu à un IRM, le modèle fait office de « cerveau virtuel » : on lui fournit un stimulus (vidéo, audio, texte), et il simule le schéma d’activation que produirait un cerveau réel dans un scanner.

Comment prédire la réaction du cerveau ?

Pour y parvenir, Meta a d’abord dû construire un gigantesque jeu de données reliant contenus et activité cérébrale. Des centaines de volontaires ont ainsi passé de longues sessions dans un IRM fonctionnel — parfois plusieurs heures — à regarder des vidéos, écouter de la parole ou lire du texte dans différentes langues. À chaque instant, les chercheurs disposent à la fois du stimulus présenté et de la réponse cérébrale correspondante.

L’IRM fonctionnel ne capture pas l’activité neuronale cellule par cellule, mais mesure des variations de flux sanguin dans de minuscules volumes appelés « voxels » (l’équivalent 3D des pixels). Le signal est donc indirect, relativement lent et flou — mais suffisant pour identifier quels réseaux cérébraux s’activent. Au total, TRIBE v2 est entraîné sur plus de 500 heures d’enregistrements fMRI, issues de plus de 700 participants. Un volume colossal pour ce type de données, historiquement limité à quelques dizaines de sujets.

Et votre vie numérique devient sereine

Bitdefender Premium Security est une solution de cybersécurité européenne qui vous protège automatiquement contre les pirates et toutes les menaces du web. Profitez de vos activités en ligne en toute tranquillité

Meta décrit TRIBE v2 comme une chaîne en trois étapes. D’abord, des encodeurs spécialisés traitent chaque type de contenu. Une vidéo, un son ou un texte brut n’est pas directement exploitable par un modèle fMRI. TRIBE v2 commence donc par faire passer chaque modalité dans un modèle dédié : un modèle de vision pour extraire des représentations d’images et de scènes, un modèle audio pour capter les caractéristiques du son et de la parole, et un modèle de langage pour comprendre le sens des phrases.

Ces modèles — issus de la famille des LLM et des architectures multimodales récentes de Meta (V-JEPA, Wav2Vec2-BERT, Llama 3.x) — transforment le flux de pixels ou d’ondes en vecteurs numériques, appelés embeddings. Ces représentations condensent l’essentiel de l’information : les objets présents, les actions en cours, le ton de la voix ou encore le contenu sémantique d’un texte.

Meta décrit TRIBE v2 comme une chaîne en trois étapes // Source : Meta

Ensuite, un module d’intégration, de type Transformer, aligne ces signaux dans le temps (par exemple, tenir compte du décalage entre un mot entendu et la réponse cérébrale associée) et produit une représentation commune de ce que la personne perçoit à un instant donné.

Enfin, une couche de projection traduit cette représentation en activité cérébrale simulée. Concrètement, le modèle prédit l’intensité de la réponse fMRI sur environ 70 000 voxels, bien au-delà des approches classiques limitées à quelques centaines de régions. Résultat : une cartographie beaucoup plus fine des aires sensorielles et associatives.

Un changement d’échelle

TRIBE v2 s’inscrit dans la continuité de TRIBE v1, présenté en 2025. Là où la première version reposait sur seulement quatre participants, une centaine d’heures de films et un peu plus de mille régions cérébrales, TRIBE v2 change complètement de dimension.

TRIBE v1 avait déjà remporté l’Algonauts 2025 brain encoding challenge, une compétition consistant à prédire l’activité cérébrale de sujets exposés à des vidéos. La nouvelle version en reprend les bases, mais avec une échelle sans précédent.

Les premiers résultats avancés par Meta, ainsi que des analyses externes, évoquent des gains de précision de l’ordre de 2 à 3×. Surtout, le modèle généralise à de nouveaux individus, tâches et langues sans recalibrage spécifique. C’est ce que les chercheurs appellent la généralisation zero‑shot : la capacité à fonctionner sur des personnes jamais vues auparavant, sans devoir recalibrer le modèle pour chaque individu.

Les premiers résultats avancés par Meta // Source : Meta

La marque met en avant deux grands cas d’usage, à commencer par la recherche en neurosciences. TRIBE v2 agit comme un simulateur : avant de mobiliser un scanner — coûteux et rare — les chercheurs peuvent tester des hypothèses, explorer des stimuli et affiner leurs protocoles. Le modèle ne remplace pas une étude clinique, mais il permet de mieux cibler les expériences et d’exploiter plus finement les données existantes. D’autant que son code et ses poids sont publiés en open source, facilitant son adoption dans les laboratoires et les startups.

Ensuite, le développement de modèles d’IA. TRIBE v2 permet de comparer directement ce que « voit » une IA à ce que traite le cerveau humain. Pour un même film ou un même son, on peut observer si les activations du modèle ressemblent aux activations mesurées en IRM. Si une architecture d’IA produit des patterns proches de ceux du cortex, cela suggère qu’elle organise l’information d’une façon similaire à la nôtre — un indice qu’elle capture des régularités utiles et qu’elle pourrait mieux généraliser ou être plus robuste sur certaines tâches.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Pour ne rien manquer de l’actualité, suivez Numerama sur Google !

Tout savoir sur la maison-mère de Facebook, Meta