← Blog OutilsIA

Dragon Labyrinth, proof-of-concept d'un trading IA qui ne triche pas

22 avril 2026 · OutilsIA.fr · ~10 min de lecture · Pont Dragon → Strategy Arena

Le même agent qui apprend à battre un dragon qu'il ne voit pas devient un bot qui trade sans donnée privilégiée. Pas une métaphore — une correspondance 1:1 entre deux architectures IA qu'on a construites en parallèle depuis mars 2026.

L'affaire de la triche cachée

Depuis les années 1980, l'industrie du jeu vidéo nous a appris à applaudir des IA qui trichent. Le TMS1100 du Mattel Dragon Labyrinth 1981 connaissait la position du chevalier et traquait au Chebyshev. Les fantômes de Pac-Man accédaient en permanence à la RAM du joueur. Les bots de Counter-Strike avaient un aimbot réglé par la difficulté. On applaudit ça depuis 45 ans sans le voir.

Dans le trading, la même question se pose : quand vous payez 49€/mois pour un bot "IA", que voit-il que vous ne voyez pas ? Data insider ? Front-running ? Accès privilégié aux order books ? L'industrie est opaque, et personne ne vous répond.

Strategy Arena est née de cette question. Si on construit un bot de trading qui refuse de tricher — qui n'a que les données publiques, comme vous — peut-il quand même être utile ? Dragon Labyrinth est le banc d'essai scientifique de cette hypothèse.

Dragon Labyrinth en 60 secondes

Un labyrinthe 8×8. Un trésor caché. Un dragon invisible. Le chevalier doit aller chercher le trésor et revenir au camp sans se faire tuer.

Le Layer Humain est un assemblage de 5 modules cognitifs : belief state probabiliste (M1), momentum-killer (M3), fear field (M4), théorie de l'esprit (M5), mode selector (M7). Tous fonctionnent sur information partielle. Aucun ne triche.

Le mapping 1:1 Dragon ↔ Strategy Arena

Chaque module du Layer Humain a un homologue exact dans l'architecture Strategy Arena. Ce n'est pas une coïncidence — c'est le même problème sous deux habillages différents : prendre de bonnes décisions en observabilité partielle.
🐉 Dragon · M1 Belief state
Distribution probabiliste des positions du dragon inconnu, mise à jour à chaque ROAR / blessure / observation.
📊 Strategy Arena · Chimera
1221 patterns de marché scannés en temps réel. Probabilité qu'on soit dans chaque régime. Pas besoin de savoir lequel — on garde la distribution.
🐉 Dragon · M3 Momentum killer
Détecte l'oscillation et la boucle. Bride le chevalier pour qu'il ne repasse pas 3 fois au même endroit.
📊 Strategy Arena · Invictus
Cross-pollination de 60 stratégies. 73 000 combinaisons inter-stratégies évaluées. Détecte les overfits répétitifs et les remplace.
🐉 Dragon · M4 Fear field
Pénalise les cases proches du dragon estimé. Champ de gradient évité.
📊 Strategy Arena · Risk gates
Penalise les trades proches des zones à risque identifiées par le regime detector. Drawdown ceiling dynamique.
🐉 Dragon · M5 Théorie de l'esprit
Anticipe le prochain coup du dragon en simulant ses règles.
📊 Strategy Arena · Leviathan
Fusion des 60 stratégies avec pondération contextuelle. Ne demande pas à chacune de prédire le marché — il lit leurs états internes pour inférer leur conviction.
🐉 Dragon · M7 Mode selector
Choisit entre explorer / aller au trésor / fuir / revenir au camp selon contexte.
📊 Strategy Arena · Regime Detector
Choisit entre trend-following / mean-reversion / volatility play / cash selon l'état détecté du marché.
🐉 Dragon · Fair Play Charter
Aucun accès à la position du dragon. Info partielle stricte. 15 % WR est un plafond dur imposé par l'observabilité.
📊 Strategy Arena · Ethical Charter
Aucun front-running, aucun insider feed, aucune donnée exclusive payante. Seulement du public-market data. Performance devient un plafond vérifiable.

Pourquoi cette symétrie n'est pas un coup de chance

Les deux systèmes résolvent le même problème formel : POMDP à haute dimension avec un adversaire adaptatif. Un POMDP (Partially Observable Markov Decision Process), c'est un jeu où l'état du monde est partiellement caché.

Toute technique qui gagne sur le premier gagne sur le deuxième. Dragon Labyrinth est un POMDP plus petit, plus lisible, plus testable. Les résultats qu'on y obtient se transfèrent directement à Strategy Arena.

Ce que Dragon a validé pour Strategy Arena

1. Structure > brute force (ablation study 800 parties)

En désactivant les modules un par un sur Dragon, on a montré que chaque couche ajoute 2-5 points de WR. Random pur = 0 %. Les 5 couches ensemble = 15 %. Dans Strategy Arena, même logique : une stratégie isolée ≈ 0.8 Sharpe, les 60 coordonnées par Invictus ≈ 2.1 Sharpe.

2. MCTS n'aide pas un agent structuré (article précédent)

On a empilé MCTS sur Oracle-X1. Résultat : 0 / 20 wins, 20× plus lent. Conclusion qui se transfère directement au trading : ne pas espérer qu'un algo d'exploration externe (Bayesian optimization, deep RL) améliore un portefeuille déjà structuré. La structure interne est l'optimum.

3. L'intuition humaine a un coût de puissance

Sur Dragon, un humain expert (20 % WR) bat notre IA (15 % WR) malgré moins de compute. Article détaillé ici. Dans Strategy Arena, ce delta définit où un trader humain reste pertinent : la gestion du regime shift, la décision de couper une perte avant qu'elle devienne catastrophique. Le bot fait 80 %, l'humain garde les 20 % d'edge décisionnel.

4. Le Fair Play Charter est un avantage concurrentiel, pas un handicap

Refuser de tricher sur Dragon coûte 83 points de WR (98 % du TMS1100 → 15 % d'Oracle-X1). Mais ça produit un agent qui généralise : il marche sur n'importe quel labyrinthe, pas seulement ceux qu'on lui a entraînés. Dans le trading, refuser le front-running et les data insider coûte des points de Sharpe… mais rend l'edge reproductible sur n'importe quel marché, n'importe quel régime, n'importe quel timeframe.

Ce que Strategy Arena valide pour Dragon

Le transfert marche aussi dans l'autre sens. Les techniques qui fonctionnent en trading réel (cross-validation walk-forward, ensemble de stratégies, regime detection Kalman) ont été ré-importées dans Dragon pour affiner Oracle-X1 :

Le hardware qui fait tourner les deux

Dragon Labyrinth en brute force tourne sur GPU CUDA (12M parties/heure sur RTX 4080). Strategy Arena teste 60 stratégies × 1221 patterns en temps réel, 24/7, sur multi-core CPU + GPU pour les modèles neuraux auxiliaires.

CUDA benchmark
RTX 4080 Super 16 Go
Utilisé pour les 12M parties Dragon en ablation.
MCTS massif
RTX 5090 32 Go
Pour Oracle-X2 futur et modèles plus lourds.
Multi-strategy
Ryzen 9 7950X
16 cœurs pour tourner 60 stratégies en parallèle.
Théorie
Livres POMDP & RL
Sutton & Barto, Kaelbling, les classiques.

La thèse des 3 actes

Acte 1 (1980–2025) : 45 ans de triche cachée dans les jeux vidéo et l'industrie IA. Applaudie, jamais questionnée.

Acte 2 (2026) : Dragon Labyrinth comme benchmark honnête. On prouve qu'une IA sans triche a un plafond mesurable (~15-20 % WR sur ce jeu), mais généralise.

Acte 3 (présent) : Strategy Arena applique la même recette au trading réel. Le Fair Play Charter devient un avantage concurrentiel éthique ET technique.

L'article 4 de la série couvrait la triche invisible des IA de jeux vidéo. Celui-ci bridge vers l'application trading. Les suivants documenteront Pac-Man Symmetric (jeu similaire, 4 agents au lieu d'1) et Active Wiki RAG (utiliser un wiki dynamique pour accélérer la convergence du belief state sur des POMDP larges).

FAQ

Pourquoi ne pas juste dire "c'est le même algo" ?

Parce que prouver le transfert demande de montrer que les 5 modules s'alignent un-à-un. Une simple analogie serait creuse. Le mapping ci-dessus est littéral : le même code cognitif (belief update, fear field, mode selector) tourne dans les deux projets, avec des adaptateurs de domaine autour.

Strategy Arena vend un produit ?

Strategy Arena est un projet de recherche en cours. On publie les métriques en live, on documente les limites. Pas de vente de signals, pas d'abonnement paywall sur les backtests. Le code n'est pas open-source, mais les résultats et la méthodologie le sont.

Est-ce qu'Oracle-X1 peut vraiment trader ?

Pas tel quel. Ses heuristiques (manhattan distance, 4 directions cardinales) sont propres au labyrinthe. Mais son squelette (M1 belief + M3 momentum + M4 fear + M5 ToM + M7 mode) a été transcrit en composants Strategy Arena qui, eux, opèrent sur des time series de prix et des carnet d'ordres. Les tests en paper trading sont en cours depuis mars 2026.

Pourquoi insister sur le Fair Play ?

Pour deux raisons. D'abord éthique : les utilisateurs finaux méritent de savoir ce qu'ils paient. Ensuite scientifique : un agent qui triche n'apprend rien sur le problème sous-jacent. Un agent qui ne triche pas découvre la structure du problème, et cette structure se transfère à d'autres problèmes. C'est la seule façon d'avancer.

Articles liés de la série

Publié le 22 avril 2026 par OutilsIA. Pour jouer au Dragon : lancer le jeu. Pour suivre Strategy Arena : strategyarena.io.