Accueil › Blog › Karpathy : RAG dépassé, LLM Wiki

💥 Controverse IA

Karpathy dit que le RAG est dépassé : le LLM Wiki est l'alternative

Q: Combien de sources le LLM Wiki peut-il gérer ?

Le sweet spot est autour de ~100 sources, ce qui produit des centaines de pages wiki. Au-delà, le linting (vérification de cohérence) devient plus coûteux car le LLM doit lire l'ensemble du wiki. Pour des corpus de 1 000+ documents, le RAG classique reste plus adapté — ou une approche hybride.

Analyse complète avec démo interactive — avril 2026

Par l'équipe OutilsIA • 4 avril 2026 • 18 min de lecture

« Le RAG redécouvre la connaissance à chaque question. C'est comme si vous alliez à la bibliothèque, scanniez 50 pages au hasard, et répondiez à un examen — à chaque fois, sans jamais retenir ce que vous avez lu. » — Andrej Karpathy, 3 avril 2026

Le 3 avril 2026, Andrej Karpathy a publié un gist GitHub et un thread viral sur X qui ont secoué la communauté IA. Son message : le RAG (Retrieval-Augmented Generation) est fondamentalement défaillant pour la gestion des connaissances. Son alternative ? Le LLM Wiki — une base de connaissances en Markdown, compilée et maintenue par un LLM.

En moins de 24 heures, VentureBeat, TechBuddies et DAIR.AI ont repris l'information. Le gist a dépassé les 5 000 étoiles sur GitHub. Des implémentations communautaires apparaissent déjà : CRATE CLI, wiki-skills pour Claude Code, plugins Obsidian.

Si vous utilisez le RAG dans vos projets, cet article va changer votre perspective. Nous allons décortiquer l'argumentation de Karpathy, comparer les deux approches avec une démo interactive, et vous montrer comment construire votre propre LLM Wiki en local.

📖 Sommaire

La bombe : pourquoi Karpathy enterre le RAG
Les 5 défauts fondamentaux du RAG
L'architecture LLM Wiki expliquée
RAG vs LLM Wiki : tableau comparatif
Démo interactive : RAG vs LLM Wiki
Simulateur Wiki Health Check
Le RAG est-il vraiment mort ?
Construire votre LLM Wiki en local
FAQ

💣 La bombe : pourquoi Karpathy enterre le RAG

Karpathy n'est pas un commentateur lambda. C'est le cofondateur d'OpenAI, l'ancien directeur IA de Tesla, et le créateur du concept de "vibe coding". Quand il dit que quelque chose est cassé, l'industrie entière écoute.

Le constat

Le 3 avril 2026, Karpathy publie un gist intitulé "Beyond RAG: LLM Wiki" sur GitHub, accompagné d'un thread viral sur X.

Son argument central : le RAG est un pansement architectural qui traite les symptômes (le LLM ne sait pas tout) sans résoudre le problème (le LLM ne comprend pas).

L'impact

📈 5 000+ étoiles GitHub en 24 h
📰 Couvert par VentureBeat, TechBuddies, DAIR.AI
💻 Implémentations communautaires immédiates (CRATE CLI, wiki-skills Claude Code)
💬 Débat enflammé dans la communauté IA

gist.github.com/karpathy/442a6bf555914893e9891c11519de94f — Publié comme un "Idea File" (son nouveau concept)

Pour comprendre pourquoi cette annonce est si importante, il faut d'abord comprendre ce qui ne va pas avec le RAG. Et Karpathy a identifié 5 défauts fondamentaux.

⚠️ Les 5 défauts fondamentaux du RAG selon Karpathy

Karpathy ne critique pas une implémentation particulière du RAG — il attaque l'architecture elle-même. Voici ses 5 arguments, détaillés.

🔄 1. Redécouverte perpétuelle

Le RAG « redécouvre la connaissance à chaque question ». Il n'y a aucune accumulation. Posez la même question 100 fois : le système effectuera 100 fois la même recherche, récupérera les mêmes chunks, et reconstruira la réponse à partir de zéro.

# RAG : chaque question = requête depuis zéro

Q: "Qu'est-ce que l'attention multi-têtes ?"

→ embed(question)

→ search(vector_db, top_k=5)

→ chunks[0:5] + prompt → LLM → réponse

# Même question demain ? Même processus. Aucune mémoire.

👁 2. Boîte noire des embeddings

Les embeddings vectoriels sont opaques. Vous ne pouvez pas lire, éditer ou tracer ce que l'IA "sait". Un vecteur [0.234, -0.891, 0.445, ...] ne vous dit rien. Impossible de vérifier si l'information stockée est correcte, obsolète ou contradictoire.

Karpathy : « Vous faites confiance à un tableau de flottants pour représenter votre connaissance. C'est comme ranger vos livres en les jetant dans un broyeur et en gardant la poussière. »

✂️ 3. Récupération de fragments, pas de compréhension

Le RAG récupère des chunks (morceaux de texte), pas de la compréhension. C'est une opération syntaxique, pas sémantique. Le système trouve des passages qui "ressemblent" à la question, sans comprendre le sujet.

Résultat : des réponses qui collent ensemble des bouts de texte sans cohérence, comme un élève qui copie des phrases d'une encyclopédie sans comprendre le sujet.

📈 4. Dégradation à l'échelle

À mesure que la base de données grossit, la qualité de la récupération se dégrade. Plus il y a de chunks, plus les résultats sont bruités. Des passages non pertinents se glissent dans le contexte, polluant la réponse finale.

C'est le paradoxe du RAG : plus vous avez de connaissances, moins le système les exploite bien. L'inverse exact de ce que vous voulez.

🔁 5. Répétition des mêmes erreurs

Chaque requête répète les mêmes erreurs de retrieval. Si un chunk est mal indexé ou si un document contient des informations obsolètes, le RAG les resservira indéfiniment. Aucun mécanisme d'apprentissage ou d'auto-correction.

💡 L'insight fondamental de Karpathy : le RAG traite le LLM comme un moteur de recherche amélioré. Mais un LLM est bien plus que ça — c'est un compilateur de connaissances. Au lieu de lui demander de chercher à chaque fois, demandez-lui de comprendre une fois pour toutes et d'écrire ce qu'il a compris.

📚 L'architecture LLM Wiki expliquée

Le LLM Wiki est l'alternative proposée par Karpathy. L'idée est radicalement différente du RAG : au lieu de chercher l'information à chaque question, on la compile en amont dans un wiki structuré, lisible par les humains ET par les machines.

L'architecture repose sur trois piliers :

📥

1. Data Ingest

Dumper les sources brutes (articles, papers, repos) dans un dossier raw/

⚙️

2. Compilation

Le LLM lit les sources et rédige des articles wiki structurés avec backlinks

🩹

3. Maintenance

Health checks automatisés : le LLM scanne le wiki pour trouver incohérences

📥 Pilier 1 : Data Ingest

La première étape est simple : rassembler vos sources brutes dans un dossier raw/. Papers PDF, articles web, dépôts GitHub, notes personnelles — tout y passe.

Karpathy utilise Obsidian Web Clipper pour convertir automatiquement les pages web en Markdown propre. Le résultat : un dossier de fichiers .md lisibles, éditables, versionnables avec Git.

# Structure du dossier raw/

wiki/

raw/

attention-is-all-you-need.md

flash-attention-paper.md

llama3-architecture-blog.md

pytorch-transformer-source.md

karpathy-nanogpt-notes.md

articles/ # ← générés par le LLM

index.md # ← table des matières auto

⚙️ Pilier 2 : Compilation par le LLM

C'est le cœur de l'architecture. Le LLM ne se contente pas de copier les sources — il agit comme un bibliothécaire chercheur. Il lit les sources brutes, synthétise l'information, et rédige des articles encyclopédiques structurés avec :

• Des résumés clairs et concis
• Des backlinks entre concepts reliés ([[attention]] → [[transformer]])
• Des citations traçables vers les sources originales
• Une hiérarchie logique (concepts de base → concepts avancés)

# Exemple d'article wiki généré

# Attention Multi-Têtes

## Résumé

L'attention multi-têtes permet au modèle de capturer

différents types de relations simultanément...

## Fonctionnement

Chaque "tête" calcule indépendamment Q, K, V...

Voir aussi : [[transformer]], [[flash-attention]]

## Sources

- raw/attention-is-all-you-need.md (Vaswani et al.)

- raw/flash-attention-paper.md (Dao et al.)

🩹 Pilier 3 : Maintenance active (Health Checks)

Le LLM effectue des passes de "linting" régulières sur le wiki. Il scanne les articles pour détecter :

⚠️ Incohérences : deux articles qui se contredisent
🔗 Liens manquants : concepts mentionnés mais pas encore documentés
🔄 Informations obsolètes : données dépassées par de nouvelles sources
🧰 Connexions inattendues : relations entre concepts que l'auteur n'avait pas vues

C'est comme avoir un rédacteur en chef permanent qui relit votre wiki et suggère des améliorations.

🔑 L'insight clé

Le Markdown est la "source de vérité". Chaque affirmation du wiki est traçable vers un fichier .md spécifique qu'un humain peut lire, vérifier, éditer ou supprimer. Pas de vecteurs opaques, pas de base de données mystérieuse — juste des fichiers texte.

Et tout cela fonctionne avec ~100 sources et des centaines de pages wiki, sans aucune infrastructure de vecteurs ou d'embeddings.

⚖️ RAG vs LLM Wiki : le comparatif détaillé

Voici le tableau qui résume les différences fondamentales entre les deux approches :

Critère	RAG classique	LLM Wiki
Type de connaissance	Chunks (fragments bruts)	Articles compilés (structurés)
Mémoire	Aucune (redécouvre chaque fois)	Persistante (le wiki grandit)
Traçabilité	Opaque (vecteurs illisibles)	Transparente (fichiers .md lisibles)
Maintenance	Réindexation manuelle	Auto-maintenance par IA
Infrastructure	Vector DB + modèle embeddings	Juste des fichiers (.md)
Sweet spot	1 000+ documents	~100 sources
Idéal pour	Q&A rapide sur gros corpus	Expertise profonde d'un domaine

Le tableau parle de lui-même, mais les chiffres bruts ne racontent qu'une partie de l'histoire. Pour sentir la différence, rien ne vaut une démonstration en temps réel.

🎮 Démo interactive : RAG vs LLM Wiki côte à côte

Même question, deux approches. Cliquez pour lancer la simulation et observez la différence de processus et de qualité.

{ this.nextStep(); }, 1200); }, stop() { this.running = false; clearTimeout(this.interval); } }" class="glass rounded-2xl p-6 mb-10">

Étape /8

Question posée :

RAG classique

Score de précision

LLM Wiki

Score de précision

🩹 Simulateur : Wiki Health Check

Le LLM Wiki n'est pas statique — il s'auto-maintient. Voici une simulation du processus de "health check" où le LLM scanne les pages du wiki à la recherche d'incohérences et de liens manquants.

Scan :

Alertes

Erreurs

Suggestions

$ wiki-lint --check-all --verbose

☠️ Le RAG est-il vraiment mort ?

Réponse courte : non. Réponse longue : c'est nuancé.

✓ Le RAG reste pertinent pour :

• Recherche à grande échelle (1 000+ documents)
• Q&A rapide sur un corpus volumineux
• Corpus dynamique qui change fréquemment
• Cas où la vitesse prime sur la profondeur

Nos guides RAG restent d'actualité : RAG local avec Ollama et Agentic RAG.

✓ Le LLM Wiki excelle pour :

• Expertise profonde sur un domaine précis
• ~100 sources de haute qualité
• Besoin de traçabilité totale
• Zéro infrastructure (juste des fichiers .md)

Pour approfondir : LLM Wiki et knowledge engineering.

💡 L'insight qui change tout

Les deux approches peuvent coexister. Utilisez le LLM Wiki pour votre connaissance curée (les 100 sources essentielles de votre domaine) et le RAG pour la recherche ad-hoc dans un corpus plus large.

Le vrai message de Karpathy n'est pas "arrêtez le RAG". C'est : les LLMs doivent COMPILER la connaissance, pas simplement la RÉCUPÉRER. Le RAG récupère. Le LLM Wiki compile. Les deux ont leur place.

Strategy Arena (voir la démo RAG vs Wiki live) utilise déjà ce pattern pour documenter automatiquement ses stratégies de trading : les sources brutes (backtests, signaux, règles) sont compilées en un wiki structuré que n'importe quel trader peut auditer.

🛠️ Construire votre LLM Wiki en local

Bonne nouvelle : vous n'avez besoin d'aucune infrastructure complexe. Ollama, Obsidian (gratuit), et un simple script Python suffisent.

Prérequis

💻 Logiciels

• Ollama (IA locale gratuite)
• Obsidian (IDE/frontend pour le wiki)
• Python 3.10+
• Obsidian Web Clipper (extension navigateur)

💻 Matériel

• Minimum : 8 Go RAM, CPU récent
• Recommandé : 16 Go RAM + GPU 8 Go+
• Optimal : RTX 4070 Ti Super ou mieux
• Pas de serveur ni de cloud nécessaire

Étape 1 : Créer le dossier de sources brutes

# Créer la structure du wiki

mkdir -p wiki/raw wiki/articles

# Ajouter vos sources brutes

# Option 1 : copier des fichiers Markdown

cp mes-notes/*.md wiki/raw/

# Option 2 : utiliser Obsidian Web Clipper

# Clipper un article web → sauvegarde en .md dans raw/

# Option 3 : convertir un PDF

python -c "import fitz; doc=fitz.open('paper.pdf'); open('wiki/raw/paper.md','w').write(''.join(p.get_text() for p in doc))"

L'idée : tout transformer en Markdown lisible. Pas d'embeddings, pas de base vectorielle — juste des fichiers texte.

Étape 2 : Le prompt compilateur

Ce script Python lit une source brute et demande à Ollama de rédiger un article wiki structuré :

# wiki_compiler.py

import

requests, os, sys

OLLAMA_URL

= "http://localhost:11434/api/generate"

MODEL

= "llama3:8b"

COMPILER_PROMPT

= """

Tu es un bibliothécaire expert. Lis cette source brute

et rédige un article wiki structuré en Markdown avec :

- Un résumé de 2-3 phrases

- Les concepts clés expliqués

- Des backlinks [[concept]] vers les concepts reliés

- Une section Sources citant le fichier original

"""

def

compile_source(raw_path):

source = open(raw_path).read()

resp = requests.post(OLLAMA_URL, json={

"model": MODEL,

"prompt": COMPILER_PROMPT + "\n\nSOURCE:\n" + source,

"stream": False

})

article = resp.json()["response"]

name = os.path.basename(raw_path)

out = f"wiki/articles/{name}"

open(out, "w").write(article)

print(f"Compilé : {raw_path} → {out}")

# Compiler toutes les sources

for

f in os.listdir("wiki/raw"):

compile_source(f"wiki/raw/{f}")

Étape 3 : Le linter (health check)

Ce script demande au LLM de vérifier la cohérence du wiki :

# wiki_lint.py

import

requests, os, glob

LINT_PROMPT

= """

Tu es un rédacteur en chef. Analyse ces articles wiki

et identifie :

1. Incohérences entre articles

2. Backlinks [[concept]] vers des articles inexistants

3. Informations potentiellement obsolètes

4. Connexions manquantes entre concepts reliés

Réponds en JSON : [{file, issue, severity, suggestion}]

"""

# Lire tous les articles

articles

= ""

for

f in glob.glob("wiki/articles/*.md"):

articles += f"\n\n--- {f} ---\n" + open(f).read()

# Lancer le lint

resp = requests.post(OLLAMA_URL, json={

"model": MODEL,

"prompt": LINT_PROMPT + articles,

"stream": False

})

print(resp.json()["response"])

Exécutez ce script régulièrement (cron, CI/CD, ou manuellement). Le LLM devient votre rédacteur en chef automatisé.

💎 Obsidian comme frontend

Karpathy utilise Obsidian comme IDE/frontend pour son LLM Wiki. Les avantages :

• Graphe de connaissances visuel — voyez les connexions entre concepts
• Backlinks natifs — [[concept]] crée des liens bidirectionnels automatiquement
• Recherche full-text instantanée sur tout le wiki
• 100% local — aucune donnée envoyée dans le cloud
• Web Clipper — clip n'importe quel article web en Markdown
• Gratuit pour un usage personnel

Combinez Obsidian avec Open WebUI pour interroger votre wiki en langage naturel.

🚀 Le Gist et les réactions de la communauté

Le gist GitHub de Karpathy a été publié comme un "Idea File" — un concept qu'il a lui-même popularisé (notre guide sur les Idea Files). L'idée : partager une réflexion structurée, pas forcément un code fini, pour déclencher des réactions et des implémentations communautaires.

🤖 CRATE CLI

Un outil en ligne de commande qui automatise les 3 étapes du LLM Wiki (ingest, compile, lint). Déjà 800+ étoiles GitHub en 24 h.

github.com/crate-ai/crate

🛠️ wiki-skills pour Claude Code

Des "skills" (commandes) pour Claude Code qui permettent de gérer un LLM Wiki directement depuis le terminal. Compilation et lint intégrés.

Voir : notre guide AutoResearch

💻 Matériel recommandé

Le LLM Wiki est léger — pas besoin de GPU haut de gamme. Mais un bon GPU accélère la compilation et le linting.

GPU	VRAM	Compilation (100 sources)	Modèle	Prix
CPU seul (pas de GPU)	—	~4 h	Phi-3 3.8B	0 €
RTX 3060 12 Go	12 Go	~45 min	Llama 3 8B	~280 €
RTX 4070 Ti Super	16 Go	~20 min	Mistral 7B, Llama 3 8B	~750 €
RTX 4090	24 Go	~10 min	Codestral 22B, Llama 3 70B (Q4)	~1800 €

Meilleur rapport qualité/prix

NVIDIA RTX 3060 12 Go

12 Go VRAM — compile 100 sources en ~45 min avec Llama 3 8B.

Voir sur Amazon →

Performance maximale

NVIDIA RTX 4090 24 Go

24 Go VRAM — compile en 10 min, supporte les gros modèles 22B-70B.

Voir sur Amazon →

💡 Pas de GPU ? Le LLM Wiki fonctionne aussi avec une API cloud (Claude, GPT-4). Le coût de compilation de 100 sources : environ 2-5 $. Bien moins cher que de maintenir une infrastructure RAG avec vector DB.

Questions fréquentes

Non. Le LLM Wiki excelle pour l'expertise profonde sur ~100 sources de haute qualité, avec une traçabilité totale. Le RAG reste pertinent pour la recherche rapide dans un corpus de 1 000+ documents qui change fréquemment. Les deux approches peuvent coexister : le Wiki pour la connaissance curée, le RAG pour la recherche ad-hoc. Pour approfondir le RAG, consultez notre guide RAG local avec Ollama.

Non, un GPU n'est pas obligatoire. Vous pouvez compiler votre wiki avec un modèle léger (Phi-3 3.8B) sur CPU uniquement — ce sera plus lent (~4 h pour 100 sources) mais fonctionnel. Vous pouvez aussi utiliser une API cloud (Claude, GPT-4) pour environ 2-5 $. Un RTX 3060 12 Go réduit ce temps à ~45 minutes.

Un wiki classique est rédigé manuellement par des humains. Le LLM Wiki est compilé automatiquement par un LLM à partir de sources brutes. Le LLM lit vos documents, les synthétise en articles structurés, crée des backlinks entre concepts, et maintient la cohérence via des passes de "linting". Vous gardez le contrôle total (fichiers Markdown éditables) mais le gros du travail est automatisé.

Non. Le LLM Wiki repose sur des fichiers Markdown standards. Vous pouvez utiliser n'importe quel éditeur : VS Code, Logseq, Typora, ou même Vim. Obsidian est simplement recommandé par Karpathy parce qu'il offre un graphe de connaissances visuel, des backlinks natifs, et un Web Clipper pratique pour capturer des sources. Mais le wiki fonctionne avec n'importe quel outil qui lit du Markdown.

Le sweet spot est autour de ~100 sources, ce qui produit des centaines de pages wiki. Au-delà, le linting (vérification de cohérence) devient plus coûteux car le LLM doit lire l'ensemble du wiki. Pour des corpus de 1 000+ documents, le RAG classique reste plus adapté — ou une approche hybride. Consultez notre guide Agentic RAG pour les architectures avancées.

Oui, c'est même l'approche recommandée. Installez Ollama, téléchargez un modèle (Llama 3 8B pour commencer), et utilisez le script de compilation fourni dans cet article. Tout reste 100% local : vos données ne quittent jamais votre machine. Pour une interface graphique, ajoutez Open WebUI.