Du concept Karpathy à la réalité : la mémoire IA en production
Tout le monde parle du LLM Wiki. Personne ne le fait. Sauf nous. Voici deux implémentations concrètes — trading et astronomie — avec le même cerveau.
Dans cet article
Tout le monde en parle, personne ne le fait
« Imaginez : votre IA ne répond plus à l'aveugle. Elle se souvient de ses erreurs d'hier, injecte 12 flux de contexte avant chaque décision, et fait évoluer ses propres prompts pendant que vous dormez. Ce n'est pas de la science-fiction. C'est en production. »
En janvier 2026, Andrej Karpathy publie son concept de LLM Wiki et déclare "RAG is dead, long live the Wiki." La communauté IA s'enflamme. Des milliers de likes. Des dizaines d'articles expliquent le concept.
Mais six mois plus tard, qui l'a vraiment implémenté en production ? Pas en démo. Pas en proof-of-concept. En production, avec de vrais utilisateurs, de vraies données, des résultats mesurables.
On l'a fait. Deux fois. Sur deux domaines complètement différents : le trading algorithmique et l'astronomie.
Voici ce qu'on a appris.
RAG vs LLM Wiki (en 30 secondes)
RAG (passif)
Cherche dans une base figée, injecte les résultats dans le prompt. L'IA répond.
La base ne s'améliore jamais. C'est une bibliothèque figée.
LLM Wiki (actif)
Accumule des connaissances, génère des hypothèses, les teste, garde ce qui marche, oublie ce qui échoue.
La base évolue. C'est un cerveau qui apprend.
Cas 1 : Strategy Arena
60 stratégies IA, 14 modules, 1 cerveau
Le problème initial
Strategy Arena fait tourner 60 stratégies de trading IA sur des données Bitcoin en temps réel. 14 modules IA différents font des milliers d'appels API par jour.
En avril 2026, un audit interne révèle la réalité : 11 des 14 modules tournent avec des prompts statiques et zéro mémoire. Chaque appel API est aveugle. L'IA qui analyse le marché à 14h ne sait pas ce qu'elle a dit à 13h. Les découvertes des 10 moteurs de recherche nocturnes (4 000+ expériences par nuit) ne sont jamais injectées dans les prompts.
Le cerveau le plus sophistiqué qu'on ait construit ne servait à rien.
La solution — Le Brain Rewiring
Couche 1 : PromptForge (12 sources de contexte)
Avant chaque appel IA, un moteur de contexte injecte 12 flux de données en temps réel :
"Tu es une IA de trading. Analyse le BTC."
"Régime BEAR. RSI 28. Tes 3 derniers votes : HOLD, HOLD, BUY (consensus était SELL). Le Wiki dit : bollinger surperforme dans ce régime. Invictus : 72% des trades meurent ici. Leviathan : SELL à 68%."
Même API. Intelligence complètement différente.
Couche 2 : Component Memory (mémoire persistante)
Chaque module sauvegarde ses interactions dans un fichier JSON individuel. 14 fichiers de mémoire. Chacun accumule les interactions, les résultats, les leçons. Un agent local (Hermes, tournant sur RTX 4080) peut lire toutes les mémoires pour des analyses transversales.
Couche 3 : 11 moteurs nocturnes (la boucle Karpathy)
Chaque nuit entre 1h30 et 6h30 :
| Moteur | Ce qu'il fait |
|---|---|
| Meta-Harness | Optimise l'optimiseur (les hyperparamètres de Darwin) |
| Darwin | Mute les paramètres des stratégies, teste, garde les gagnants |
| Leviathan | Évolue les poids du système de vote |
| Portfolio | Optimise l'allocation entre stratégies |
| Invictus | Cartographie les conditions qui tuent les trades |
| Chimera | Évolue 1 221 seuils de détection de patterns |
| Hydra | Optimise les hyperparamètres ML |
| Wiki Compiler | Consolide les découvertes en connaissances structurées |
| Strategic Layer | Génère des hypothèses testables |
| Nutrition | Évolue les critères de sélection des stratégies fiables |
| Prompt Evolution | Chaque IA évolue son propre prompt système |
Le dernier moteur est le plus fascinant : chaque IA (Claude, Grok, GPT, Gemini, DeepSeek, Perplexity) mute son propre prompt, le teste sur des données historiques, et garde la version qui performe le mieux. L'IA qui écrit les meilleures instructions pour elle-même gagne.
Résultats concrets
Cas 2 : Vigi-Sky
18 116 observations, la mémoire du ciel
Le problème initial
Vigi-Sky est une plateforme d'observation astronomique et de phénomènes aériens. Les utilisateurs soumettent des photos du ciel. Claude AI les analyse.
Chaque analyse est isolée. L'IA ne sait pas que 68% des phénomènes rapportés sont en forme de disque. Elle ne sait pas que la France est le 2e pays au monde en observations. Elle ne sait pas que les formations triangulaires au-dessus des villes sont presque toujours des drones.
La solution — Observation Wiki
On a appliqué exactement le même pattern que Strategy Arena, adapté à l'astronomie.
ETL initial : 18 116 cas historiques
La base Hatch (une des plus complètes au monde) a été parsée entièrement. L'IA a extrait :
PromptForge Vigi-Sky
Avant chaque analyse de photo, le système injecte :
- ▶ Statistiques régionales (ex: "à Toulouse, les triangles sont souvent des drones")
- ▶ Cas similaires dans la base (ex: "47 cas avec cette description, 41 étaient des drones")
- ▶ Passages satellites en temps réel (Celestrak/TLE)
- ▶ Conditions astronomiques (phase lunaire, planètes visibles, pluies de météores)
- ▶ Leçons du wiki (ex: "les iPhone 15/16 produisent un artefact vert dans 12% des photos nocturnes")
🔎 Exemple réel — L'observation des cigares verts
Un utilisateur rapporte un objet en forme de cigare à lueur verte à Saint-Jean-du-Bruel (Aveyron).
"Probablement un drone ou un avion."
104 cas similaires trouvés. 21 en France dont un à 50km. Pattern existant depuis 1909. 81% silencieux. Cross-référencement satellite négatif. Score : 95% inexpliqué.
L'IA passe de "c'est peut-être un drone" à une analyse forensique basée sur 116 ans de données.
Le pattern universel
Les deux projets utilisent exactement la même architecture :
| Composant | Strategy Arena | Vigi-Sky |
|---|---|---|
| Base | 60 stratégies, prix temps réel | 18 116 observations, base Hatch |
| Wiki | Living Wiki (leçons de trading) | Observation Wiki (patterns aériens) |
| PromptForge | 12 sources financières | Contexte astronomique + régional |
| Mémoire | Component Memory (14 modules) | Par utilisateur + par région |
| Évolution | 11 crons nocturnes | Pattern Miner + Regional Profiler |
| Boucle | Analyse → mémoire → wiki → prompt | Observation → analyse → wiki → prompt |
Le cycle en 5 étapes :
Deux mondes, même cerveau
⚔ Trading (Strategy Arena)
- • Données temps réel (prix BTC toutes les 5 min)
- • Décisions rapides (vote toutes les 30 min)
- • Feedback immédiat (le prix monte ou descend)
- • Évolution rapide (milliers d'expériences/nuit)
- • 6 APIs votent en parallèle
🌌 Astronomie (Vigi-Sky)
- • Données historiques (18 116 cas sur 116 ans)
- • Analyse ponctuelle (quand un utilisateur soumet)
- • Feedback lent (vérification humaine)
- • Enrichissement par accumulation
- • 1 API avec contexte de milliers de cas
La vitesse est différente. Le pattern est identique.
Le framework open-source : ActiveWiki
Les deux projets utilisent ActiveWiki, un framework Python open-source :
- • Implémente le cycle accumulate-think-act-learn
- • Inclut : decay de mémoire, cristallisation de connaissances, génération d'hypothèses
- • Utilisable pour tout domaine : trading, astronomie, médecine, juridique, support client...
Conclusion : Karpathy avait raison, mais c'est plus grand que le code
Quand Karpathy a proposé le LLM Wiki, il pensait à l'auto-documentation de code. Six mois plus tard, on l'applique au trading et à l'astronomie.
Le pattern n'est pas spécifique à un domaine. Il est universel. Partout où une IA fait des décisions répétées dans un contexte spécifique — diagnostic médical, support client, analyse juridique, détection de fraude — le même schéma s'applique :
- 1. Donnez-lui une mémoire persistante
- 2. Injectez le contexte pertinent avant chaque décision
- 3. Sauvegardez chaque résultat
- 4. Faites évoluer les paramètres la nuit
- 5. Répétez
« Les prompts statiques sont le bottleneck #1 des applications IA en 2026. La mémoire compte plus que la taille du modèle. Et la boucle Karpathy fonctionne sur les prompts, pas seulement sur les paramètres. »
Le futur de l'IA n'est pas des modèles plus gros. C'est des modèles qui se souviennent.