Qu'est-ce que transformer, attention et tokens ?

Transformer est un type d'architecture de réseau neuronal utilisé dans les LLM. Attention est une mécanisme qui permet aux modèles de se concentrer sur les parties pertinentes des entrées. Tokens sont des unités minimales d'information, comme des mots ou des groupes de mots, que les LLM traitent.

LLM expliqués : tokens et attention

Q: Qu'est-ce qu'un LLM ?

Un LLM, ou Langage Modèle Large, est un type d'intelligence artificielle qui permet aux ordinateurs de comprendre et de générer du langage naturel de manière fluide.

Q: Comment fonctionnent les LLM ?

Les LLM fonctionnent en utilisant des milliards d'entrées d'exemples de phrases pour apprendre à comprendre et à générer du langage naturel. Ils analysent la structure des phrases, le vocabulaire et les relations entre les mots.

ChatGPT, Claude, Mistral, Gemini... vous utilisez des IA tous les jours, mais savez-vous comment elles fonctionnent réellement ? Pas besoin d'être ingénieur pour comprendre. Dans cet article, nous expliquons les concepts clés — tokens, Transformer, attention, paramètres, quantification — avec des analogies simples et sans aucune formule mathématique.

🎓 Ce que vous allez comprendre

Après cet article, vous saurez exactement ce que signifient les termes "7B paramètres", "128K de contexte", "Q4_K_M" ou "température 0.7" quand vous choisissez un modèle d'IA. Ces connaissances vous aideront à faire de meilleurs choix pour vos outils IA, que ce soit en cloud ou en local.

Qu'est-ce qu'un LLM (Large Language Model) ?

Un LLM, ou Grand Modèle de Langage, est un programme informatique entraîné à comprendre et générer du texte. C'est ce qui alimente ChatGPT, Claude, Mistral et tous les chatbots IA que vous connaissez.

L'analogie de la bibliothèque

Imaginez un bibliothécaire qui a lu des milliards de pages — livres, articles, sites web, conversations. Il n'a pas tout mémorisé mot pour mot, mais il a appris les patterns du langage : comment les phrases sont construites, quels mots vont ensemble, comment raisonner. Quand vous lui posez une question, il ne "cherche" pas la réponse dans sa mémoire : il compose une réponse en utilisant tout ce qu'il a appris sur le langage.

Concrètement, un LLM est un réseau de neurones artificiels (un programme mathématique très complexe) qui prédit le mot suivant le plus probable dans une séquence. Il fait ça mot après mot, jusqu'à constituer une réponse complète. C'est simple dans le principe, mais la complexité du réseau lui permet de produire des textes étonnamment intelligents.

Les tokens : comment le texte est découpé

Un LLM ne lit pas le texte lettre par lettre, ni mot par mot. Il le découpe en tokens — des morceaux de texte de taille variable. Un token peut être un mot entier, une partie de mot, un signe de ponctuation ou un espace.

Exemple concret de tokenisation

Phrase : "Bonjour, comment allez-vous aujourd'hui ?"

Tokens : Bonjour, comment allez-vous aujourd'hui ?

→ 9 tokens pour 6 mots. En moyenne, 1 mot français = 1,3 à 1,5 tokens.

Pourquoi c'est important ? Parce que tout se mesure en tokens : la taille de votre question, la longueur de la réponse, la fenêtre de contexte, le prix par requête via l'API. En règle générale, 1 000 tokens correspondent à environ 750 mots en français.

L'architecture Transformer : le moteur de tous les LLM

Tous les LLM modernes (ChatGPT, Claude, Mistral, Llama, Gemini) utilisent la même architecture de base : le Transformer, inventé par Google en 2017. C'est le moteur commun qui fait fonctionner tous ces modèles.

L'analogie de la cuisine de restaurant

Imaginez une grande cuisine de restaurant avec trois étapes :

La réception (entrée) : votre texte arrive et est découpé en tokens, chaque token reçoit un "numéro d'identité" unique (embedding)
La cuisine (attention) : les chefs regardent tous les ingrédients en même temps et décident lesquels sont importants pour le plat en cours — c'est le mécanisme d'attention
Le service (sortie) : le modèle produit le token suivant le plus probable, puis recommence le processus pour le token d'après

La force du Transformer par rapport aux anciennes architectures, c'est la parallélisation : il peut traiter tous les tokens d'entrée en même temps, au lieu de les lire un par un. C'est ce qui permet d'entraîner des modèles sur des milliards de textes en un temps raisonnable.

Le mécanisme d'attention : "le modèle décide ce qui est important"

L'attention est le concept le plus important de l'IA moderne. C'est ce qui permet au modèle de comprendre le contexte et les relations entre les mots.

L'analogie du projecteur

Imaginez que vous lisez un livre avec un projecteur que vous pouvez braquer sur n'importe quelle partie du texte. Quand vous rencontrez le mot "il" dans une phrase, votre projecteur éclaire automatiquement le nom auquel "il" se rapporte, même s'il est 200 mots plus tôt. C'est exactement ce que fait l'attention : pour chaque mot qu'il génère, le modèle braque son attention sur les parties pertinentes de tout le texte précédent.

Sans l'attention, un modèle ne pourrait pas maintenir la cohérence d'une réponse longue. Il oublierait de quoi il parlait au début. L'attention permet de garder le fil, de respecter les instructions et de rester cohérent sur des milliers de mots.

Entraînement vs inférence : apprendre et utiliser

Deux phases distinctes dans la vie d'un LLM :

Entraînement (Training)

C'est la phase d'apprentissage. Le modèle lit des milliards de textes et ajuste ses paramètres internes pour mieux prédire le mot suivant. Cette phase est extrêmement coûteuse : des millions d'euros de GPU, des semaines de calcul. C'est fait une seule fois par les grandes entreprises (OpenAI, Mistral, Meta...).

Analogie : un étudiant qui passe 5 ans à la fac.

Inférence (Inference)

C'est la phase d'utilisation. Le modèle entraîné reçoit votre question et génère une réponse. C'est ce qui se passe quand vous utilisez ChatGPT ou Ollama. Cette phase est beaucoup moins coûteuse et c'est ce que vous faites sur votre PC en local.

Analogie : le diplômé qui répond à vos questions au travail.

Quand vous "faites tourner un modèle en local", vous ne faites que de l'inférence. Vous n'avez pas besoin du matériel monstrueux nécessaire à l'entraînement. Un GPU de gaming ou un Mac suffit amplement.

Les paramètres : que signifient 7B, 70B, 400B ?

Les "paramètres" sont les connexions internes du réseau de neurones. Chaque paramètre est un nombre décimal qui a été ajusté pendant l'entraînement. Plus il y a de paramètres, plus le modèle peut stocker de "connaissances" et de "compétences".

L'analogie du cerveau

Les paramètres sont un peu comme les synapses du cerveau humain. Le cerveau humain possède environ 100 000 milliards (100T) de synapses. GPT-4 en a environ 1 800 milliards (1,8T). Llama 3 8B en a 8 milliards. Plus de paramètres = un réseau plus riche en connexions = un modèle potentiellement plus "intelligent".

Taille	Exemples	Capacités	VRAM (Q4)
1-3B	Gemma 2B, Phi-3 Mini	Tâches simples, chatbot basique	2 Go
7-8B	Mistral 7B, Llama 3 8B	Usage quotidien, bon en français	4-6 Go
13-22B	Mistral Small, Codestral	Code, rédaction, analyse	8-14 Go
70B	Llama 3 70B, Qwen 72B	Excellent, proche du cloud	40 Go
100B+	Mistral Large 3, GPT-4	État de l'art, top performance	64 Go+

Attention : plus gros ne veut pas toujours dire meilleur. Un modèle 7B bien entraîné sur des données de qualité peut surpasser un modèle 13B entraîné sur des données médiocres. La qualité des données d'entraînement compte autant que la taille.

La quantification : compression intelligente des modèles

Un modèle de 70B paramètres en précision complète (FP16) pèse environ 140 Go. C'est beaucoup trop pour la plupart des machines. La quantification est une technique de compression qui réduit la taille du modèle en arrondissant les nombres internes.

L'analogie de la photo JPEG

C'est comme compresser une photo en JPEG : vous réduisez la taille du fichier en perdant un peu de détails. Mais si la compression est bien faite, la différence est quasi invisible à l'oeil nu. De même, un modèle quantifié en Q4 perd 1 à 3 % de qualité mais occupe 4 fois moins de mémoire.

Format	Signification	Taille (70B)	Perte de qualité
FP16	16 bits, précision complète	~140 Go	Aucune
Q8	8 bits, haute qualité	~70 Go	~0,5 %
Q4_K_M	4 bits, meilleur compromis	~40 Go	~1-2 %
Q2	2 bits, très compressé	~20 Go	~5-10 %

En pratique, Q4_K_M est le format le plus populaire : il divise la taille par 3,5 avec une perte de qualité quasi imperceptible. C'est ce que télécharge Ollama par défaut quand vous lancez un modèle.

Mixture of Experts (MoE) : l'astuce de Mixtral

L'architecture MoE est une innovation majeure popularisée par Mistral avec Mixtral 8x7B. L'idée est simple mais brillante : au lieu d'avoir un seul gros réseau, on a plusieurs "experts" spécialisés, et seuls quelques-uns sont activés pour chaque requête.

L'analogie du cabinet médical

Imaginez un cabinet médical avec 8 spécialistes (cardiologue, dermatologue, etc.). Quand un patient arrive, seuls 2 spécialistes pertinents le prennent en charge. Le cabinet a la compétence de 8 médecins, mais le coût de fonctionnement de seulement 2. C'est exactement ce que fait le MoE : Mixtral 8x7B a 46,7B paramètres au total, mais n'en active que 12,9B par requête — d'où sa rapidité.

Meta a adopté la même approche avec Llama 4 Scout (16 experts, 1 activé) et Maverick (16 experts, 1 activé). C'est devenu l'architecture dominante pour les modèles performants et efficaces.

La fenêtre de contexte : combien le modèle "se souvient"

La fenêtre de contexte est la quantité de texte que le modèle peut "voir" en même temps — votre question, l'historique de la conversation et sa propre réponse en cours. Elle se mesure en tokens.

4K tokens (~3 000 mots) Ancien standard (GPT-3)

32K tokens (~24 000 mots) Standard actuel

128K tokens (~96 000 mots) GPT-4o, Mistral Large

200K tokens (~150 000 mots) Claude

1M+ tokens (~750 000 mots) Gemini, Claude Opus 4

Un contexte de 128K tokens, c'est l'équivalent d'un livre entier de 300 pages. Avec 1M tokens, vous pouvez charger plusieurs livres et demander au modèle de les analyser ensemble. En local, la taille du contexte est limitée par votre RAM disponible.

La température : le curseur créativité vs précision

La température est un paramètre que vous pouvez ajuster dans la plupart des interfaces IA. C'est un nombre entre 0 et 2 qui contrôle le degré de créativité du modèle.

Très précis

Toujours la même réponse. Idéal pour le code, les faits, les calculs.

0.7

Équilibré

Le réglage par défaut. Bon pour la conversation et la rédaction.

1.5+

Très créatif

Réponses surprenantes, parfois incohérentes. Pour le brainstorming.

L'analogie du chef cuisinier

Température 0 : le chef suit la recette à la lettre, chaque fois le même plat parfait. Température 0,7 : le chef suit la recette mais s'autorise quelques variations personnelles. Température 1,5 : le chef improvise complètement — parfois c'est un chef-d'oeuvre, parfois c'est immangeable.

Pourquoi comprendre tout ça vous aide concrètement

Ces concepts ne sont pas que théoriques. Ils vous aident à faire de meilleurs choix au quotidien :

• Choisir le bon modèle : un modèle 7B suffit pour du chat simple, mais il faut du 70B+ pour du raisonnement complexe
• Choisir la bonne quantification : Q4_K_M est le meilleur compromis, Q8 si vous avez assez de VRAM
• Comprendre les limites : si le modèle "oublie" le début de la conversation, c'est que vous avez dépassé sa fenêtre de contexte
• Ajuster la température : baissez-la pour du code ou des faits, montez-la pour de la création
• Évaluer le matériel nécessaire : vous savez maintenant calculer la VRAM requise pour chaque modèle

→ Passez à la pratique

Maintenant que vous comprenez comment fonctionnent les LLM, il est temps de choisir le bon modèle pour votre matériel et de le faire tourner en local.

→ Lire : Quel modèle sur quel hardware ? Le guide pratique

Comment fonctionnent les LLM ? Transformer, attention, tokens expliqués simplement