Il y a trois jours, on publiait « Le piège de la simplicité » : le récit d'une journée à reproduire le Mattel Dragon Labyrinth (1980) et à constater que toutes les API IA modernes (Claude, Gemini, Grok) se font ridiculiser par un TMS1100 de 1980. Même notre propre agent Oracle-X1, avec belief state et commitment stack, plafonne à 5% de victoire en solo.
La question qui restait : parmi les modules cognitifs d'Oracle-X1, lesquels contribuent vraiment ? Belief tracker (M1) ? Radius filter (M2) ? Oscillation killer (M3) ? On a passé la nuit à faire tourner 800 parties contrôlées avec seeds fixes pour trancher. Voici les résultats.
Une ablation study, c'est le standard en recherche IA pour isoler la contribution de chaque composant. On teste toutes les combinaisons possibles de modules et on mesure ce qui change.
Oracle-X1 a 3 modules cognitifs :
On obtient 2³ = 8 configurations, du baseline NONE (aucun module) au full stack M1+M2+M3. Chaque configuration joue les mêmes 100 seeds de labyrinthe — ça élimine la variance aléatoire. Les parties sont identiques maze par maze, seul le comportement du chevalier change.
Tableau complet. Vert = top performers. Gris = pas d'effet versus baseline.
| Config | Win rate | Treasure rate | Turns moyen | Survie | Hits |
|---|---|---|---|---|---|
| NONE (baseline) | 4.0% | 15% | 4.2 | 3.8 | 2.72 |
| M1 seul | 6.0% | 13% | 23.1 | 22.6 | 2.53 |
| M2 seul | 4.0% | 15% | 4.2 | 3.8 | 2.72 |
| M3 seul | 9.0% | 26% | 5.5 | 5.0 | 2.53 |
| M1+M2 | 6.0% | 13% | 23.1 | 22.6 | 2.53 |
| M1+M3 | 15.0% | 29% | 29.7 | 29.2 | 1.96 |
| M2+M3 | 9.0% | 26% | 5.5 | 5.0 | 2.53 |
| M1+M2+M3 (full) | 15.0% | 29% | 29.7 | 29.2 | 1.96 |
Regarde les paires : NONE = M2. M1 = M1+M2. M3 = M2+M3. M1+M3 = M1+M2+M3. Partout où M2 est activé, les chiffres sont rigoureusement identiques à la config sans M2.
Hypothèse la plus probable : M2 est dominé par M1. Le belief tracker (M1) a déjà éliminé toutes les cases impossibles par inférence bayésienne — donc quand M2 veut filtrer par rayon, il ne trouve plus rien à filtrer. M2 n'est pas bugué, il est redondant.
M1 seul : +2% de win rate. M3 seul : +5%. Ensemble : +11%. La somme devrait donner +7% si c'était additif. C'est du x2.5 sur l'effet combiné.
L'explication : M1 dit au chevalier où est probablement le trésor. M3 l'empêche de tourner en rond. Sans M3, même avec une bonne estimation, le knight oscille et se fait attraper. Sans M1, le knight navigue correctement mais ne sait pas où aller.
M1 fait passer la durée de survie moyenne de 4 à 23 tours (x5.7). Mais le win rate ne passe que de 4% à 6%. Le chevalier survit longtemps… et meurt quand même, souvent en boucle.
C'est la preuve que la survie n'est pas la victoire. Il faut aussi savoir rentrer au camp avec le trésor, et ça c'est le rôle de M3.
Hier soir, une conversation avec Gemini (envoyée par un utilisateur) a décrit le problème exactement dans les termes que notre ablation mesure :
« Les LLM sont probabilistes. Ils ne disent jamais "Le mur est là", ils disent "Il y a 92% de chances qu'un mur soit là". Dans un labyrinthe, 8% d'erreur, c'est la mort. En Turbo Pascal, ton array[1..8, 1..8] of boolean ne se trompait jamais. »
« L'IA ne possède pas de "carte mentale" innée. Si elle fait Haut, Droite, Bas, Gauche, elle ne comprend pas intuitivement qu'elle est revenue au point de départ. Elle traite cela comme quatre événements distincts. »
Traduction : les LLM ont une cécité spatiale. Ils n'ont pas de world model persistant. Ils ont besoin d'un échafaudage externe — ce qu'on appelle ici le Layer Humain.
Notre ablation prouve chiffres à l'appui que cet échafaudage a deux composants essentiels :
Les chiffres sont une preuve, mais pas une démonstration. Pour voir l'effet à l'œil nu, on vient d'ajouter au jeu un mode duel : deux chevaliers dans le même labyrinthe, avec des configurations de modules différentes. Tu peux cocher M1/M2/M3 séparément pour chaque chevalier.
Un panneau comparatif en bas de l'écran montre la config de chaque chevalier, ses hits en cours, sa phase courante (RECON/LURE/GRAB) et sa position. C'est la version interactive de ce tableau d'ablation.
Un TMS1100 de 1980 a 32 octets de RAM. Il bat des modèles à 1 000 milliards de paramètres sur un problème de navigation 8×8. Ce n'est pas un caprice ; c'est une leçon structurelle.
Les LLM sont excellents pour la généralisation floue (comprendre un texte, résumer, traduire). Ils sont catastrophiques pour la navigation déterministe dans un espace partiellement observable. Le Layer Humain comble ce gap — c'est un échafaudage logique qu'on leur tend pour qu'ils cessent de tomber.
La même logique s'applique à tout usage de LLM dans un environnement contraint : trading algorithmique, robotique, jeux de stratégie, interaction physique. Sans échafaudage, l'IA flotte. Avec échafaudage minimal mais précis (M1+M3 chez nous), les résultats triplent.
Le code du simulateur + l'ablation study + les CSV bruts sont disponibles pour reproduction. Le simulateur reproduit fidèlement le site : maze gen Kruskal, dragon TMS1100, contraintes Mattel (wake radius 3, strength 8/6/4, max 50 murs).
python3 ablation.py 100 150 — relance les 800 parties sur ton propre ordi en 40 secondes.
🎮 Essayer le duel 2 chevaliers 🏆 Voir le leaderboard
On va maintenant :
Le TMS1100 continue de régner. Mais les failles des LLM deviennent mesurables — et donc corrigibles.
« On a construit des autoroutes de calcul, mais on a encore besoin du vieux plan papier pour ne pas se perdre dans le brouillard. » — Gemini, 2026
Article publié le 19 avril 2026 · ← Le piège de la simplicité