Accueil Blog Comment fonctionnent les LLM
Éducation

Comment fonctionnent les LLM ? Transformer, attention, tokens expliqués simplement

Par l'équipe OutilsIA avril 2026 15 min de lecture

ChatGPT, Claude, Mistral, Gemini... vous utilisez des IA tous les jours, mais savez-vous comment elles fonctionnent réellement ? Pas besoin d'être ingénieur pour comprendre. Dans cet article, nous expliquons les concepts clés — tokens, Transformer, attention, paramètres, quantification — avec des analogies simples et sans aucune formule mathématique.

🎓 Ce que vous allez comprendre

Après cet article, vous saurez exactement ce que signifient les termes "7B paramètres", "128K de contexte", "Q4_K_M" ou "température 0.7" quand vous choisissez un modèle d'IA. Ces connaissances vous aideront à faire de meilleurs choix pour vos outils IA, que ce soit en cloud ou en local.

Qu'est-ce qu'un LLM (Large Language Model) ?

Un LLM, ou Grand Modèle de Langage, est un programme informatique entraîné à comprendre et générer du texte. C'est ce qui alimente ChatGPT, Claude, Mistral et tous les chatbots IA que vous connaissez.

L'analogie de la bibliothèque

Imaginez un bibliothécaire qui a lu des milliards de pages — livres, articles, sites web, conversations. Il n'a pas tout mémorisé mot pour mot, mais il a appris les patterns du langage : comment les phrases sont construites, quels mots vont ensemble, comment raisonner. Quand vous lui posez une question, il ne "cherche" pas la réponse dans sa mémoire : il compose une réponse en utilisant tout ce qu'il a appris sur le langage.

Concrètement, un LLM est un réseau de neurones artificiels (un programme mathématique très complexe) qui prédit le mot suivant le plus probable dans une séquence. Il fait ça mot après mot, jusqu'à constituer une réponse complète. C'est simple dans le principe, mais la complexité du réseau lui permet de produire des textes étonnamment intelligents.

Les tokens : comment le texte est découpé

Un LLM ne lit pas le texte lettre par lettre, ni mot par mot. Il le découpe en tokens — des morceaux de texte de taille variable. Un token peut être un mot entier, une partie de mot, un signe de ponctuation ou un espace.

Exemple concret de tokenisation

Phrase : "Bonjour, comment allez-vous aujourd'hui ?"

Tokens : Bonjour, comment allez-vous aujourd'hui ?

→ 9 tokens pour 6 mots. En moyenne, 1 mot français = 1,3 à 1,5 tokens.

Pourquoi c'est important ? Parce que tout se mesure en tokens : la taille de votre question, la longueur de la réponse, la fenêtre de contexte, le prix par requête via l'API. En règle générale, 1 000 tokens correspondent à environ 750 mots en français.

L'architecture Transformer : le moteur de tous les LLM

Tous les LLM modernes (ChatGPT, Claude, Mistral, Llama, Gemini) utilisent la même architecture de base : le Transformer, inventé par Google en 2017. C'est le moteur commun qui fait fonctionner tous ces modèles.

L'analogie de la cuisine de restaurant

Imaginez une grande cuisine de restaurant avec trois étapes :

  1. La réception (entrée) : votre texte arrive et est découpé en tokens, chaque token reçoit un "numéro d'identité" unique (embedding)
  2. La cuisine (attention) : les chefs regardent tous les ingrédients en même temps et décident lesquels sont importants pour le plat en cours — c'est le mécanisme d'attention
  3. Le service (sortie) : le modèle produit le token suivant le plus probable, puis recommence le processus pour le token d'après

La force du Transformer par rapport aux anciennes architectures, c'est la parallélisation : il peut traiter tous les tokens d'entrée en même temps, au lieu de les lire un par un. C'est ce qui permet d'entraîner des modèles sur des milliards de textes en un temps raisonnable.

Le mécanisme d'attention : "le modèle décide ce qui est important"

L'attention est le concept le plus important de l'IA moderne. C'est ce qui permet au modèle de comprendre le contexte et les relations entre les mots.

L'analogie du projecteur

Imaginez que vous lisez un livre avec un projecteur que vous pouvez braquer sur n'importe quelle partie du texte. Quand vous rencontrez le mot "il" dans une phrase, votre projecteur éclaire automatiquement le nom auquel "il" se rapporte, même s'il est 200 mots plus tôt. C'est exactement ce que fait l'attention : pour chaque mot qu'il génère, le modèle braque son attention sur les parties pertinentes de tout le texte précédent.

Sans l'attention, un modèle ne pourrait pas maintenir la cohérence d'une réponse longue. Il oublierait de quoi il parlait au début. L'attention permet de garder le fil, de respecter les instructions et de rester cohérent sur des milliers de mots.

Entraînement vs inférence : apprendre et utiliser

Deux phases distinctes dans la vie d'un LLM :

Entraînement (Training)

C'est la phase d'apprentissage. Le modèle lit des milliards de textes et ajuste ses paramètres internes pour mieux prédire le mot suivant. Cette phase est extrêmement coûteuse : des millions d'euros de GPU, des semaines de calcul. C'est fait une seule fois par les grandes entreprises (OpenAI, Mistral, Meta...).

Analogie : un étudiant qui passe 5 ans à la fac.

Inférence (Inference)

C'est la phase d'utilisation. Le modèle entraîné reçoit votre question et génère une réponse. C'est ce qui se passe quand vous utilisez ChatGPT ou Ollama. Cette phase est beaucoup moins coûteuse et c'est ce que vous faites sur votre PC en local.

Analogie : le diplômé qui répond à vos questions au travail.

Quand vous "faites tourner un modèle en local", vous ne faites que de l'inférence. Vous n'avez pas besoin du matériel monstrueux nécessaire à l'entraînement. Un GPU de gaming ou un Mac suffit amplement.

Les paramètres : que signifient 7B, 70B, 400B ?

Les "paramètres" sont les connexions internes du réseau de neurones. Chaque paramètre est un nombre décimal qui a été ajusté pendant l'entraînement. Plus il y a de paramètres, plus le modèle peut stocker de "connaissances" et de "compétences".

L'analogie du cerveau

Les paramètres sont un peu comme les synapses du cerveau humain. Le cerveau humain possède environ 100 000 milliards (100T) de synapses. GPT-4 en a environ 1 800 milliards (1,8T). Llama 3 8B en a 8 milliards. Plus de paramètres = un réseau plus riche en connexions = un modèle potentiellement plus "intelligent".

Taille Exemples Capacités VRAM (Q4)
1-3B Gemma 2B, Phi-3 Mini Tâches simples, chatbot basique 2 Go
7-8B Mistral 7B, Llama 3 8B Usage quotidien, bon en français 4-6 Go
13-22B Mistral Small, Codestral Code, rédaction, analyse 8-14 Go
70B Llama 3 70B, Qwen 72B Excellent, proche du cloud 40 Go
100B+ Mistral Large 3, GPT-4 État de l'art, top performance 64 Go+

Attention : plus gros ne veut pas toujours dire meilleur. Un modèle 7B bien entraîné sur des données de qualité peut surpasser un modèle 13B entraîné sur des données médiocres. La qualité des données d'entraînement compte autant que la taille.

La quantification : compression intelligente des modèles

Un modèle de 70B paramètres en précision complète (FP16) pèse environ 140 Go. C'est beaucoup trop pour la plupart des machines. La quantification est une technique de compression qui réduit la taille du modèle en arrondissant les nombres internes.

L'analogie de la photo JPEG

C'est comme compresser une photo en JPEG : vous réduisez la taille du fichier en perdant un peu de détails. Mais si la compression est bien faite, la différence est quasi invisible à l'oeil nu. De même, un modèle quantifié en Q4 perd 1 à 3 % de qualité mais occupe 4 fois moins de mémoire.

Format Signification Taille (70B) Perte de qualité
FP16 16 bits, précision complète ~140 Go Aucune
Q8 8 bits, haute qualité ~70 Go ~0,5 %
Q4_K_M 4 bits, meilleur compromis ~40 Go ~1-2 %
Q2 2 bits, très compressé ~20 Go ~5-10 %

En pratique, Q4_K_M est le format le plus populaire : il divise la taille par 3,5 avec une perte de qualité quasi imperceptible. C'est ce que télécharge Ollama par défaut quand vous lancez un modèle.

Mixture of Experts (MoE) : l'astuce de Mixtral

L'architecture MoE est une innovation majeure popularisée par Mistral avec Mixtral 8x7B. L'idée est simple mais brillante : au lieu d'avoir un seul gros réseau, on a plusieurs "experts" spécialisés, et seuls quelques-uns sont activés pour chaque requête.

L'analogie du cabinet médical

Imaginez un cabinet médical avec 8 spécialistes (cardiologue, dermatologue, etc.). Quand un patient arrive, seuls 2 spécialistes pertinents le prennent en charge. Le cabinet a la compétence de 8 médecins, mais le coût de fonctionnement de seulement 2. C'est exactement ce que fait le MoE : Mixtral 8x7B a 46,7B paramètres au total, mais n'en active que 12,9B par requête — d'où sa rapidité.

Meta a adopté la même approche avec Llama 4 Scout (16 experts, 1 activé) et Maverick (16 experts, 1 activé). C'est devenu l'architecture dominante pour les modèles performants et efficaces.

La fenêtre de contexte : combien le modèle "se souvient"

La fenêtre de contexte est la quantité de texte que le modèle peut "voir" en même temps — votre question, l'historique de la conversation et sa propre réponse en cours. Elle se mesure en tokens.

4K tokens (~3 000 mots) Ancien standard (GPT-3)
32K tokens (~24 000 mots) Standard actuel
128K tokens (~96 000 mots) GPT-4o, Mistral Large
200K tokens (~150 000 mots) Claude
1M+ tokens (~750 000 mots) Gemini, Claude Opus 4

Un contexte de 128K tokens, c'est l'équivalent d'un livre entier de 300 pages. Avec 1M tokens, vous pouvez charger plusieurs livres et demander au modèle de les analyser ensemble. En local, la taille du contexte est limitée par votre RAM disponible.

La température : le curseur créativité vs précision

La température est un paramètre que vous pouvez ajuster dans la plupart des interfaces IA. C'est un nombre entre 0 et 2 qui contrôle le degré de créativité du modèle.

0

Très précis

Toujours la même réponse. Idéal pour le code, les faits, les calculs.

0.7

Équilibré

Le réglage par défaut. Bon pour la conversation et la rédaction.

1.5+

Très créatif

Réponses surprenantes, parfois incohérentes. Pour le brainstorming.

L'analogie du chef cuisinier

Température 0 : le chef suit la recette à la lettre, chaque fois le même plat parfait. Température 0,7 : le chef suit la recette mais s'autorise quelques variations personnelles. Température 1,5 : le chef improvise complètement — parfois c'est un chef-d'oeuvre, parfois c'est immangeable.

Pourquoi comprendre tout ça vous aide concrètement

Ces concepts ne sont pas que théoriques. Ils vous aident à faire de meilleurs choix au quotidien :

  • Choisir le bon modèle : un modèle 7B suffit pour du chat simple, mais il faut du 70B+ pour du raisonnement complexe
  • Choisir la bonne quantification : Q4_K_M est le meilleur compromis, Q8 si vous avez assez de VRAM
  • Comprendre les limites : si le modèle "oublie" le début de la conversation, c'est que vous avez dépassé sa fenêtre de contexte
  • Ajuster la température : baissez-la pour du code ou des faits, montez-la pour de la création
  • Évaluer le matériel nécessaire : vous savez maintenant calculer la VRAM requise pour chaque modèle

→ Passez à la pratique

Maintenant que vous comprenez comment fonctionnent les LLM, il est temps de choisir le bon modèle pour votre matériel et de le faire tourner en local.

→ Lire : Quel modèle sur quel hardware ? Le guide pratique

Questions fréquentes

C'est le grand débat philosophique de l'IA. Techniquement, un LLM prédit le token le plus probable dans une séquence — il n'a pas de "conscience" ou de "compréhension" au sens humain. Mais les résultats sont si bons qu'ils simulent une compréhension profonde. Que cette simulation soit une forme de compréhension réelle ou non, les chercheurs ne sont pas d'accord. Ce qui est certain, c'est que les LLM produisent des résultats utiles et pertinents dans la grande majorité des cas.
Les hallucinations (réponses fausses mais confiantes) sont une conséquence directe du fonctionnement des LLM : ils prédisent le mot suivant le plus probable, pas le plus vrai. Si le modèle n'a pas vu suffisamment de données fiables sur un sujet, il peut "inventer" une réponse qui semble plausible linguistiquement mais qui est factuellement fausse. C'est pourquoi il faut toujours vérifier les informations critiques, surtout pour les chiffres, les dates et les faits précis.
Non, pas du tout. Ollama s'installe en une commande et fonctionne immédiatement. Open WebUI fournit une interface graphique identique à ChatGPT. Vous n'avez besoin d'aucune connaissance en programmation. Ce qui aide, c'est de comprendre les concepts de base expliqués dans cet article (taille du modèle, quantification, contexte) pour choisir le bon modèle pour votre machine. Consultez notre guide d'installation Ollama pour commencer en 5 minutes.