Karpathy dit que le RAG est dépassé : le LLM Wiki est l'alternative
Analyse complète avec démo interactive — avril 2026
« Le RAG redécouvre la connaissance à chaque question. C'est comme si vous alliez à la bibliothèque, scanniez 50 pages au hasard, et répondiez à un examen — à chaque fois, sans jamais retenir ce que vous avez lu. » — Andrej Karpathy, 3 avril 2026
Le 3 avril 2026, Andrej Karpathy a publié un gist GitHub et un thread viral sur X qui ont secoué la communauté IA. Son message : le RAG (Retrieval-Augmented Generation) est fondamentalement défaillant pour la gestion des connaissances. Son alternative ? Le LLM Wiki — une base de connaissances en Markdown, compilée et maintenue par un LLM.
En moins de 24 heures, VentureBeat, TechBuddies et DAIR.AI ont repris l'information. Le gist a dépassé les 5 000 étoiles sur GitHub. Des implémentations communautaires apparaissent déjà : CRATE CLI, wiki-skills pour Claude Code, plugins Obsidian.
Si vous utilisez le RAG dans vos projets, cet article va changer votre perspective. Nous allons décortiquer l'argumentation de Karpathy, comparer les deux approches avec une démo interactive, et vous montrer comment construire votre propre LLM Wiki en local.
📖 Sommaire
💣 La bombe : pourquoi Karpathy enterre le RAG
Karpathy n'est pas un commentateur lambda. C'est le cofondateur d'OpenAI, l'ancien directeur IA de Tesla, et le créateur du concept de "vibe coding". Quand il dit que quelque chose est cassé, l'industrie entière écoute.
Le constat
Le 3 avril 2026, Karpathy publie un gist intitulé "Beyond RAG: LLM Wiki" sur GitHub, accompagné d'un thread viral sur X.
Son argument central : le RAG est un pansement architectural qui traite les symptômes (le LLM ne sait pas tout) sans résoudre le problème (le LLM ne comprend pas).
L'impact
- 📈 5 000+ étoiles GitHub en 24 h
- 📰 Couvert par VentureBeat, TechBuddies, DAIR.AI
- 💻 Implémentations communautaires immédiates (CRATE CLI, wiki-skills Claude Code)
- 💬 Débat enflammé dans la communauté IA
Pour comprendre pourquoi cette annonce est si importante, il faut d'abord comprendre ce qui ne va pas avec le RAG. Et Karpathy a identifié 5 défauts fondamentaux.
⚠️ Les 5 défauts fondamentaux du RAG selon Karpathy
Karpathy ne critique pas une implémentation particulière du RAG — il attaque l'architecture elle-même. Voici ses 5 arguments, détaillés.
🔄 1. Redécouverte perpétuelle
Le RAG « redécouvre la connaissance à chaque question ». Il n'y a aucune accumulation. Posez la même question 100 fois : le système effectuera 100 fois la même recherche, récupérera les mêmes chunks, et reconstruira la réponse à partir de zéro.
👁 2. Boîte noire des embeddings
Les embeddings vectoriels sont opaques. Vous ne pouvez pas lire, éditer ou tracer ce que l'IA "sait". Un vecteur [0.234, -0.891, 0.445, ...] ne vous dit rien. Impossible de vérifier si l'information stockée est correcte, obsolète ou contradictoire.
Karpathy : « Vous faites confiance à un tableau de flottants pour représenter votre connaissance. C'est comme ranger vos livres en les jetant dans un broyeur et en gardant la poussière. »
✂️ 3. Récupération de fragments, pas de compréhension
Le RAG récupère des chunks (morceaux de texte), pas de la compréhension. C'est une opération syntaxique, pas sémantique. Le système trouve des passages qui "ressemblent" à la question, sans comprendre le sujet.
Résultat : des réponses qui collent ensemble des bouts de texte sans cohérence, comme un élève qui copie des phrases d'une encyclopédie sans comprendre le sujet.
📈 4. Dégradation à l'échelle
À mesure que la base de données grossit, la qualité de la récupération se dégrade. Plus il y a de chunks, plus les résultats sont bruités. Des passages non pertinents se glissent dans le contexte, polluant la réponse finale.
C'est le paradoxe du RAG : plus vous avez de connaissances, moins le système les exploite bien. L'inverse exact de ce que vous voulez.
🔁 5. Répétition des mêmes erreurs
Chaque requête répète les mêmes erreurs de retrieval. Si un chunk est mal indexé ou si un document contient des informations obsolètes, le RAG les resservira indéfiniment. Aucun mécanisme d'apprentissage ou d'auto-correction.
💡 L'insight fondamental de Karpathy : le RAG traite le LLM comme un moteur de recherche amélioré. Mais un LLM est bien plus que ça — c'est un compilateur de connaissances. Au lieu de lui demander de chercher à chaque fois, demandez-lui de comprendre une fois pour toutes et d'écrire ce qu'il a compris.
📚 L'architecture LLM Wiki expliquée
Le LLM Wiki est l'alternative proposée par Karpathy. L'idée est radicalement différente du RAG : au lieu de chercher l'information à chaque question, on la compile en amont dans un wiki structuré, lisible par les humains ET par les machines.
L'architecture repose sur trois piliers :
Dumper les sources brutes (articles, papers, repos) dans un dossier raw/
Le LLM lit les sources et rédige des articles wiki structurés avec backlinks
Health checks automatisés : le LLM scanne le wiki pour trouver incohérences
📥 Pilier 1 : Data Ingest
La première étape est simple : rassembler vos sources brutes dans un dossier raw/. Papers PDF, articles web, dépôts GitHub, notes personnelles — tout y passe.
Karpathy utilise Obsidian Web Clipper pour convertir automatiquement les pages web en Markdown propre. Le résultat : un dossier de fichiers .md lisibles, éditables, versionnables avec Git.
⚙️ Pilier 2 : Compilation par le LLM
C'est le cœur de l'architecture. Le LLM ne se contente pas de copier les sources — il agit comme un bibliothécaire chercheur. Il lit les sources brutes, synthétise l'information, et rédige des articles encyclopédiques structurés avec :
- • Des résumés clairs et concis
- • Des backlinks entre concepts reliés ([[attention]] → [[transformer]])
- • Des citations traçables vers les sources originales
- • Une hiérarchie logique (concepts de base → concepts avancés)
🩹 Pilier 3 : Maintenance active (Health Checks)
Le LLM effectue des passes de "linting" régulières sur le wiki. Il scanne les articles pour détecter :
- ⚠️ Incohérences : deux articles qui se contredisent
- 🔗 Liens manquants : concepts mentionnés mais pas encore documentés
- 🔄 Informations obsolètes : données dépassées par de nouvelles sources
- 🧰 Connexions inattendues : relations entre concepts que l'auteur n'avait pas vues
C'est comme avoir un rédacteur en chef permanent qui relit votre wiki et suggère des améliorations.
🔑 L'insight clé
Le Markdown est la "source de vérité". Chaque affirmation du wiki est traçable vers un fichier .md spécifique qu'un humain peut lire, vérifier, éditer ou supprimer. Pas de vecteurs opaques, pas de base de données mystérieuse — juste des fichiers texte.
Et tout cela fonctionne avec ~100 sources et des centaines de pages wiki, sans aucune infrastructure de vecteurs ou d'embeddings.
⚖️ RAG vs LLM Wiki : le comparatif détaillé
Voici le tableau qui résume les différences fondamentales entre les deux approches :
| Critère | RAG classique | LLM Wiki |
|---|---|---|
| Type de connaissance | Chunks (fragments bruts) | Articles compilés (structurés) |
| Mémoire | Aucune (redécouvre chaque fois) | Persistante (le wiki grandit) |
| Traçabilité | Opaque (vecteurs illisibles) | Transparente (fichiers .md lisibles) |
| Maintenance | Réindexation manuelle | Auto-maintenance par IA |
| Infrastructure | Vector DB + modèle embeddings | Juste des fichiers (.md) |
| Sweet spot | 1 000+ documents | ~100 sources |
| Idéal pour | Q&A rapide sur gros corpus | Expertise profonde d'un domaine |
Le tableau parle de lui-même, mais les chiffres bruts ne racontent qu'une partie de l'histoire. Pour sentir la différence, rien ne vaut une démonstration en temps réel.
🎮 Démo interactive : RAG vs LLM Wiki côte à côte
Même question, deux approches. Cliquez pour lancer la simulation et observez la différence de processus et de qualité.
📊 Verdict
RAG : 72% de précision — 2 chunks non pertinents, aucune traçabilité, aucune mémoire.
LLM Wiki : 94% de précision — article compilé, sources traçables, backlinks, wiki persistant.
Relancez la démo pour tester avec une autre question. Le résultat est toujours le même : la connaissance compilée bat la récupération brute.
🩹 Simulateur : Wiki Health Check
Le LLM Wiki n'est pas statique — il s'auto-maintient. Voici une simulation du processus de "health check" où le LLM scanne les pages du wiki à la recherche d'incohérences et de liens manquants.
📊 Résultat du Health Check
10 pages scannées. 0 OK, 0 alertes, 0 erreurs, 0 suggestions.
Dans un vrai LLM Wiki, le LLM corrigerait automatiquement les incohérences et proposerait les articles manquants. La maintenance se fait sans intervention humaine.
☠️ Le RAG est-il vraiment mort ?
Réponse courte : non. Réponse longue : c'est nuancé.
✓ Le RAG reste pertinent pour :
- • Recherche à grande échelle (1 000+ documents)
- • Q&A rapide sur un corpus volumineux
- • Corpus dynamique qui change fréquemment
- • Cas où la vitesse prime sur la profondeur
Nos guides RAG restent d'actualité : RAG local avec Ollama et Agentic RAG.
✓ Le LLM Wiki excelle pour :
- • Expertise profonde sur un domaine précis
- • ~100 sources de haute qualité
- • Besoin de traçabilité totale
- • Zéro infrastructure (juste des fichiers .md)
Pour approfondir : LLM Wiki et knowledge engineering.
💡 L'insight qui change tout
Les deux approches peuvent coexister. Utilisez le LLM Wiki pour votre connaissance curée (les 100 sources essentielles de votre domaine) et le RAG pour la recherche ad-hoc dans un corpus plus large.
Le vrai message de Karpathy n'est pas "arrêtez le RAG". C'est : les LLMs doivent COMPILER la connaissance, pas simplement la RÉCUPÉRER. Le RAG récupère. Le LLM Wiki compile. Les deux ont leur place.
Strategy Arena (voir la démo RAG vs Wiki live) utilise déjà ce pattern pour documenter automatiquement ses stratégies de trading : les sources brutes (backtests, signaux, règles) sont compilées en un wiki structuré que n'importe quel trader peut auditer.
🛠️ Construire votre LLM Wiki en local
Bonne nouvelle : vous n'avez besoin d'aucune infrastructure complexe. Ollama, Obsidian (gratuit), et un simple script Python suffisent.
Prérequis
- • Minimum : 8 Go RAM, CPU récent
- • Recommandé : 16 Go RAM + GPU 8 Go+
- • Optimal : RTX 4070 Ti Super ou mieux
- • Pas de serveur ni de cloud nécessaire
Étape 1 : Créer le dossier de sources brutes
L'idée : tout transformer en Markdown lisible. Pas d'embeddings, pas de base vectorielle — juste des fichiers texte.
Étape 2 : Le prompt compilateur
Ce script Python lit une source brute et demande à Ollama de rédiger un article wiki structuré :
Étape 3 : Le linter (health check)
Ce script demande au LLM de vérifier la cohérence du wiki :
Exécutez ce script régulièrement (cron, CI/CD, ou manuellement). Le LLM devient votre rédacteur en chef automatisé.
💎 Obsidian comme frontend
Karpathy utilise Obsidian comme IDE/frontend pour son LLM Wiki. Les avantages :
- • Graphe de connaissances visuel — voyez les connexions entre concepts
- • Backlinks natifs — [[concept]] crée des liens bidirectionnels automatiquement
- • Recherche full-text instantanée sur tout le wiki
- • 100% local — aucune donnée envoyée dans le cloud
- • Web Clipper — clip n'importe quel article web en Markdown
- • Gratuit pour un usage personnel
Combinez Obsidian avec Open WebUI pour interroger votre wiki en langage naturel.
🚀 Le Gist et les réactions de la communauté
Le gist GitHub de Karpathy a été publié comme un "Idea File" — un concept qu'il a lui-même popularisé (notre guide sur les Idea Files). L'idée : partager une réflexion structurée, pas forcément un code fini, pour déclencher des réactions et des implémentations communautaires.
Un outil en ligne de commande qui automatise les 3 étapes du LLM Wiki (ingest, compile, lint). Déjà 800+ étoiles GitHub en 24 h.
Des "skills" (commandes) pour Claude Code qui permettent de gérer un LLM Wiki directement depuis le terminal. Compilation et lint intégrés.
💻 Matériel recommandé
Le LLM Wiki est léger — pas besoin de GPU haut de gamme. Mais un bon GPU accélère la compilation et le linting.
| GPU | VRAM | Compilation (100 sources) | Modèle | Prix |
|---|---|---|---|---|
| CPU seul (pas de GPU) | — | ~4 h | Phi-3 3.8B | 0 € |
| RTX 3060 12 Go | 12 Go | ~45 min | Llama 3 8B | ~280 € |
| RTX 4070 Ti Super | 16 Go | ~20 min | Mistral 7B, Llama 3 8B | ~750 € |
| RTX 4090 | 24 Go | ~10 min | Codestral 22B, Llama 3 70B (Q4) | ~1800 € |
12 Go VRAM — compile 100 sources en ~45 min avec Llama 3 8B.
24 Go VRAM — compile en 10 min, supporte les gros modèles 22B-70B.
💡 Pas de GPU ? Le LLM Wiki fonctionne aussi avec une API cloud (Claude, GPT-4). Le coût de compilation de 100 sources : environ 2-5 $. Bien moins cher que de maintenir une infrastructure RAG avec vector DB.