Ces dernières années, l’intelligence artificielle a enfin endossé le rôle qu’on lui promettait depuis ses premières théorisations, celui d’un assistant virtuel capable de tout faire (ou presque). Derrière cette révolution se cache un socle commun : le LLM ou grand modèle de langage (Large Language Model).
Qu’est-ce qu’un LLM (Large Language Model) ?
Un LLM est une intelligence artificielle entraînée sur d’énormes quantités de textes pour apprendre comment le langage fonctionne. Le LLM peut se voir en somme comme un immense moteur de génération de texte — un logiciel qui a en quelque sorte « appris à parler notre langage ».
La différence entre IA, Machine Learning et LLM
Ces trois termes renvoient globalement à la même idée, mais à des niveaux différents. On peut les voir comme une sorte de poupée russe :
- l’IA est le concept le plus large,
- le machine learning (apprentissage automatique) en est une sous-catégorie (l’IA qui apprend à partir de données),
- les LLM sont un type particulier de machine learning.
Pourquoi parle-t-on de Large pour les LLM ?
Large fait directement référence à la quantité de données ingérées par les LLM. Ces derniers sont entraînés sur une somme incommensurable d’écrits (livres, articles, sites web…) pour apprendre comment les humains écrivent et s’expriment. Il n’enregistre pas des phrases par cœur. Son objectif est plutôt d’apprendre les règles implicites du langage, les styles, les enchaînements d’idées, et les façons courantes de répondre à une question. Il mime d’une certaine manière le comportement d’un humain.

Un LLM comme GPT-5 a été entraîné sur d’immenses volumes de texte, comptés en centaines de milliards, voire en trillions de tokens (des fragments de mots, des mots et de la ponctuation). À l’échelle humaine, il faudrait des dizaines de milliers d’années pour simplement lire une telle quantité de texte, sans même parler du temps nécessaire pour l’analyser, l’apprendre et la comprendre.
C’est la principale force de ces systèmes qui peuvent à la fois être très généralistes tout en affichant une expertise très solide sur des tâches précises.
Comment fonctionne un LLM et ses fameux tokens ?
Un LLM ne « comprend » pas à proprement parler ce que vous lui écrivez. En réalité, lorsque vous saisissez un prompt sur votre intelligence artificielle générative favorite, cette dernière analyse votre texte… puis le découpe en tokens. Or, un token n’est pas forcément un mot : cela peut être une partie de mot, un espace + un mot, ou même de la ponctuation.
Ainsi, un mot simple peut parfois représenter 2 ou 3 tokens, selon la langue et la manière dont le texte est découpé. Cette mécanique permet au LLM de manipuler une sorte d’alphabet de fragments réutilisables, et de gagner en efficacité — plutôt que de gérer des mots trop variés et trop imprévisibles.
Les tokens d’entrée des LLM
Tous ces tokens soumis à l’IA constituent ce qu’on appelle les tokens d’entrée. C’est le matériau qui permet au système de construire un contexte et de répondre en conséquence. Plus la limite de tokens d’entrée est élevée, plus le modèle peut traiter de longs textes sans perdre le fil (un document complet, un historique de conversation, une série d’instructions, etc.).
Cependant, cette mémoire n’est pas infinie, chaque modèle reste entraîné sur une fenêtre de contexte maximale. GPT-5, par exemple, affiche jusqu’à 400 000 tokens d’entrée. Concrètement, cela signifie qu’il peut lire énormément — même si, au bout d’un certain volume, il devra malgré tout oublier une partie du contexte le plus ancien pour continuer. Et lorsque des informations importantes disparaissent de ce contexte (ou n’y figurent tout simplement pas), le modèle peut parfois compenser en produisant une réponse plausible mais inexacte, c’est l’une des causes fréquentes des fameuses hallucinations.
Une fois les tokens analysés, le LLM applique des scores d’importance à chacun des tokens pour s’aligner au mieux sur le contexte et sortir une réponse la plus précise possible.
Admettons que votre prompt soit :
« Je pars à Paris ce week-end. J’arrive samedi matin et je repars lundi soir.
Mon budget est serré, je veux surtout visiter à pied, et je suis végétarien.
Propose-moi un planning, sans musées. »
Avec cette demande, le LLM ne traite pas chaque mot de la même manière. Il repère surtout les éléments qui posent le cadre et les contraintes. Ici, ce sont Paris, ce week-end, samedi matin et lundi soir qui définissent la durée du séjour, tandis que budget serré, à pied, végétarien et sans musées orientent directement les recommandations. Ces mots-clés pèsent davantage dans le raisonnement du modèle, ceux qui l’amènent à proposer un planning différent qu’avec une formulation plus générique.

C’est aussi pour cela qu’on recommande généralement de bien détailler ses prompts afin d’obtenir la réponse la plus satisfaisante possible.
Les tokens de sortie des LLM
Cette notion de tokens ne s’applique pas seulement à ce que vous écrivez, mais aussi à ce que le modèle répond. Avec GPT-5, OpenAI fixe par exemple un plafond pouvant aller jusqu’à 128 000 tokens en sortie — un maximum qui dépend toutefois du contexte utilisé (la longueur du prompt et de l’historique). En pratique, plus votre demande est longue, plus l’espace disponible pour la réponse peut se réduire.
Concrètement, cela reste largement suffisant pour générer des réponses très longues, détaillées et parfois étonnamment riches. Mais à force d’utiliser ces assistants, on finit aussi par repérer certains réflexes d’écriture avec des structures qui reviennent, des transitions familières, etc…
Sur GPT-3, GPT-3.5 et les premières versions de GPT-4, il n’y avait pas de sortie max, la limite était variable selon l’entrée. Plus le prompt était long, plus la place restante pour la réponse diminuait. Les modèles récents distinguent davantage une fenêtre d’entrée et une limite de sortie dédiée.
Les tokens sont aujourd’hui au cœur de l’évolution des LLM que l’on connaît. C’est même un peu le nerf de la guerre. Depuis plusieurs années, les modèles augmentent progressivement le nombre de tokens (en entrée et en sortie) afin de rendre les IA plus précises, plus cohérentes et capables de gérer des demandes de plus en plus complexes.
À titre d’exemple, voici l’évolution de ChatGPT au fil de ses versions :
| Modèle | Contexte total (entrée + sortie) | Sortie max |
|---|---|---|
| GPT-3 | ~2 048 tokens | variable (reste disponible) |
| GPT-3.5 | ~4 096 tokens | variable (reste disponible) |
| GPT-4 (premières versions) | ~8k → 32k tokens | variable (reste disponible) |
| GPT-5 | ~400k tokens d’entrée | variable ~128k tokens de sortie |
Les principaux LLM sur le marché en 2026
Les premiers LLM ont commencé à émerger à partir de 2017, avec un usage assez basique au départ : celui des agents conversationnels. En effet, ces derniers servaient surtout à alimenter des chatbots sur des sites web, pour des interactions simples comme par exemple effectuer un retour, signaler un problème ou déposer une réclamation.
C’est bien plus tardivement que les modèles de génération que l’on connaît aujourd’hui se sont réellement démocratisés. Plus précisément, c’est fin novembre 2022 que ChatGPT a été lancé en version gratuite, marquant un véritable tournant dans l’adoption grand public des LLM.
OpenAI a ensuite été rejoint par de nombreux géants du secteur, comme Google ou Microsoft. En 2026, le nombre de LLM disponibles est devenu massif, mais voici les principaux modèles à connaître :
- Gemini (anciennement Bard) — Google
- GPT (ChatGPT / API OpenAI) — OpenAI
- Claude — Anthropic
- Llama — Meta
- Mistral — Mistral AI
- Grok — xAI (Elon Musk / X)
- Copilot (basé sur GPT) — Microsoft
- Apple Intelligence (Siri nouvelle génération, modèles Apple) — Apple
- Qwen — Alibaba
- ERNIE — Baidu
- DeepSeek — DeepSeek AI
- Cohere Command — Cohere
À quoi servent les LLM ? Cas d’usage concrets
Au départ, les LLM grand public servaient surtout à générer du texte — et c’est d’ailleurs ainsi qu’ils ont été adoptés dans un premier temps. Mais aujourd’hui, leurs usages se sont largement enrichis : au-delà du simple fait d’écrire ou de reformuler, un LLM peut par exemple résumer des documents, répondre à des questions complexes, ou encore fonctionner comme un professeur ou un coach. Il peut aussi aider à créer du code, corriger des erreurs et accompagner des projets de programmation, tout en étant utile pour traduire, rechercher et structurer des informations.
Enfin, de plus en plus d’utilisateurs s’en servent pour automatiser des tâches via des plateformes comme n8n ou Make, capables de connecter plusieurs outils et modèles d’IA entre eux pour construire de véritables workflows.
L’évolution des LLM vers des modèles multimodaux
Depuis quelques années, les LLM ne se limitent plus au texte. Ils évoluent progressivement vers ce qu’on appelle des systèmes multimodaux, capables de comprendre et de manipuler plusieurs types de contenus. Concrètement, un modèle moderne peut désormais analyser une image, en extraire des informations, puis répondre en texte — et parfois générer des visuels (voire de l’audio ou de la vidéo) à partir d’une simple consigne, le tout restant piloté par un LLM. Bref, un véritable écosystème entier.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Toute l'actu tech en un clin d'œil
Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !
Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !













