Dragon Labyrinth, proof-of-concept d'un trading IA qui ne triche pas

🛒 Transparence affiliés. Cet article contient des liens affiliés Amazon. En achetant via ces liens, OutilsIA peut percevoir une commission, sans surcoût pour vous. Nos recommandations restent éditorialement indépendantes — aucun constructeur ne sponsorise ce contenu. Voir mentions légales.

22 avril 2026 · OutilsIA.fr · ~10 min de lecture · Pont Dragon → Strategy Arena

Le même agent qui apprend à battre un dragon qu'il ne voit pas devient un bot qui trade sans donnée privilégiée. Pas une métaphore — une correspondance 1:1 entre deux architectures IA qu'on a construites en parallèle depuis mars 2026.

L'affaire de la triche cachée

Depuis les années 1980, l'industrie du jeu vidéo nous a appris à applaudir des IA qui trichent. Le TMS1100 du Mattel Dragon Labyrinth 1981 connaissait la position du chevalier et traquait au Chebyshev. Les fantômes de Pac-Man accédaient en permanence à la RAM du joueur. Les bots de Counter-Strike avaient un aimbot réglé par la difficulté. On applaudit ça depuis 45 ans sans le voir.

Dans le trading, la même question se pose : quand vous payez 49€/mois pour un bot "IA", que voit-il que vous ne voyez pas ? Data insider ? Front-running ? Accès privilégié aux order books ? L'industrie est opaque, et personne ne vous répond.

Strategy Arena est née de cette question. Si on construit un bot de trading qui refuse de tricher — qui n'a que les données publiques, comme vous — peut-il quand même être utile ? Dragon Labyrinth est le banc d'essai scientifique de cette hypothèse.

Dragon Labyrinth en 60 secondes

Un labyrinthe 8×8. Un trésor caché. Un dragon invisible. Le chevalier doit aller chercher le trésor et revenir au camp sans se faire tuer.

TMS1100 (1981) : le dragon voit la position du chevalier en permanence. Win rate dragon ≈ 85 % sur 14 580 trials vs frontier LLMs.
Humain expert : ne voit pas le dragon. ~20 % de succès.
Brute force IA (12M parties CUDA sur RTX 4080) : 0-2 % WR.
Oracle-X1 avec Layer Humain : 15 % WR — sans triche, sans accès à la position du dragon.

Le Layer Humain est un assemblage de 5 modules cognitifs : belief state probabiliste (M1), momentum-killer (M3), fear field (M4), théorie de l'esprit (M5), mode selector (M7). Tous fonctionnent sur information partielle. Aucun ne triche.

Le mapping 1:1 Dragon ↔ Strategy Arena

Chaque module du Layer Humain a un homologue exact dans l'architecture Strategy Arena. Ce n'est pas une coïncidence — c'est le même problème sous deux habillages différents : prendre de bonnes décisions en observabilité partielle.

🐉 Dragon · M1 Belief state

Distribution probabiliste des positions du dragon inconnu, mise à jour à chaque ROAR / blessure / observation.

📊 Strategy Arena · Chimera

1221 patterns de marché scannés en temps réel. Probabilité qu'on soit dans chaque régime. Pas besoin de savoir lequel — on garde la distribution.

🐉 Dragon · M3 Momentum killer

Détecte l'oscillation et la boucle. Bride le chevalier pour qu'il ne repasse pas 3 fois au même endroit.

📊 Strategy Arena · Invictus

Cross-pollination de 60 stratégies. 73 000 combinaisons inter-stratégies évaluées. Détecte les overfits répétitifs et les remplace.

🐉 Dragon · M4 Fear field

Pénalise les cases proches du dragon estimé. Champ de gradient évité.

📊 Strategy Arena · Risk gates

Penalise les trades proches des zones à risque identifiées par le regime detector. Drawdown ceiling dynamique.

🐉 Dragon · M5 Théorie de l'esprit

Anticipe le prochain coup du dragon en simulant ses règles.

📊 Strategy Arena · Leviathan

Fusion des 60 stratégies avec pondération contextuelle. Ne demande pas à chacune de prédire le marché — il lit leurs états internes pour inférer leur conviction.

🐉 Dragon · M7 Mode selector

Choisit entre explorer / aller au trésor / fuir / revenir au camp selon contexte.

📊 Strategy Arena · Regime Detector

Choisit entre trend-following / mean-reversion / volatility play / cash selon l'état détecté du marché.

🐉 Dragon · Fair Play Charter

Aucun accès à la position du dragon. Info partielle stricte. 15 % WR est un plafond dur imposé par l'observabilité.

📊 Strategy Arena · Ethical Charter

Aucun front-running, aucun insider feed, aucune donnée exclusive payante. Seulement du public-market data. Performance devient un plafond vérifiable.

Pourquoi cette symétrie n'est pas un coup de chance

Les deux systèmes résolvent le même problème formel : POMDP à haute dimension avec un adversaire adaptatif. Un POMDP (Partially Observable Markov Decision Process), c'est un jeu où l'état du monde est partiellement caché.

Le dragon qu'on ne voit pas = des ordres cachés derrière le carnet d'ordres qu'on ne voit pas
Le chevalier qui avance une case par tour = un bot qui ouvre une position et attend le marché
Les murs du labyrinthe = les contraintes de spread, slippage, frais d'échange
Le ROAR quand on approche du trésor = la divergence MACD qui signale une rotation de régime
Les 3 hits maximum = la loss tolerance du compte avant margin call

Toute technique qui gagne sur le premier gagne sur le deuxième. Dragon Labyrinth est un POMDP plus petit, plus lisible, plus testable. Les résultats qu'on y obtient se transfèrent directement à Strategy Arena.

Ce que Dragon a validé pour Strategy Arena

1. Structure > brute force (ablation study 800 parties)

En désactivant les modules un par un sur Dragon, on a montré que chaque couche ajoute 2-5 points de WR. Random pur = 0 %. Les 5 couches ensemble = 15 %. Dans Strategy Arena, même logique : une stratégie isolée ≈ 0.8 Sharpe, les 60 coordonnées par Invictus ≈ 2.1 Sharpe.

2. MCTS n'aide pas un agent structuré (article précédent)

On a empilé MCTS sur Oracle-X1. Résultat : 0 / 20 wins, 20× plus lent. Conclusion qui se transfère directement au trading : ne pas espérer qu'un algo d'exploration externe (Bayesian optimization, deep RL) améliore un portefeuille déjà structuré. La structure interne est l'optimum.

3. L'intuition humaine a un coût de puissance

Sur Dragon, un humain expert (20 % WR) bat notre IA (15 % WR) malgré moins de compute. Article détaillé ici. Dans Strategy Arena, ce delta définit où un trader humain reste pertinent : la gestion du regime shift, la décision de couper une perte avant qu'elle devienne catastrophique. Le bot fait 80 %, l'humain garde les 20 % d'edge décisionnel.

4. Le Fair Play Charter est un avantage concurrentiel, pas un handicap

Refuser de tricher sur Dragon coûte 83 points de WR (85 % du TMS1100 → 15 % d'Oracle-X1). Mais ça produit un agent qui généralise : il marche sur n'importe quel labyrinthe, pas seulement ceux qu'on lui a entraînés. Dans le trading, refuser le front-running et les data insider coûte des points de Sharpe… mais rend l'edge reproductible sur n'importe quel marché, n'importe quel régime, n'importe quel timeframe.

Ce que Strategy Arena valide pour Dragon

Le transfert marche aussi dans l'autre sens. Les techniques qui fonctionnent en trading réel (cross-validation walk-forward, ensemble de stratégies, regime detection Kalman) ont été ré-importées dans Dragon pour affiner Oracle-X1 :

Cross-pollination Invictus → inspiration pour le prochain Oracle-X2 (évaluer chaque action contre 5 hypothèses de trésor au lieu d'une)
Regime detector → déjà présent dans M7 mode selector
Leviathan fusion → pattern à importer pour choisir entre 3 styles d'exploration du labyrinthe

Le hardware qui fait tourner les deux

Dragon Labyrinth en brute force tourne sur GPU CUDA (12M parties/heure sur RTX 4080). Strategy Arena teste 60 stratégies × 1221 patterns en temps réel, 24/7, sur multi-core CPU + GPU pour les modèles neuraux auxiliaires.

CUDA benchmark

RTX 4080 Super 16 Go

Utilisé pour les 12M parties Dragon en ablation.

MCTS massif

RTX 5090 32 Go

Pour Oracle-X2 futur et modèles plus lourds.

Multi-strategy

Ryzen 9 7950X

16 cœurs pour tourner 60 stratégies en parallèle.

Théorie

Livres POMDP & RL

Sutton & Barto, Kaelbling, les classiques.

La thèse des 3 actes

Acte 1 (1980–2025) : 45 ans de triche cachée dans les jeux vidéo et l'industrie IA. Applaudie, jamais questionnée.

Acte 2 (2026) : Dragon Labyrinth comme benchmark honnête. On prouve qu'une IA sans triche a un plafond mesurable (~15-20 % WR sur ce jeu), mais généralise.

Acte 3 (présent) : Strategy Arena applique la même recette au trading réel. Le Fair Play Charter devient un avantage concurrentiel éthique ET technique.

L'article 4 de la série couvrait la triche invisible des IA de jeux vidéo. Celui-ci bridge vers l'application trading. Les suivants documenteront Pac-Man Symmetric (jeu similaire, 4 agents au lieu d'1) et Active Wiki RAG (utiliser un wiki dynamique pour accélérer la convergence du belief state sur des POMDP larges).

FAQ

Pourquoi ne pas juste dire "c'est le même algo" ?

Parce que prouver le transfert demande de montrer que les 5 modules s'alignent un-à-un. Une simple analogie serait creuse. Le mapping ci-dessus est littéral : le même code cognitif (belief update, fear field, mode selector) tourne dans les deux projets, avec des adaptateurs de domaine autour.

Strategy Arena vend un produit ?

Strategy Arena est un projet de recherche en cours. On publie les métriques en live, on documente les limites. Pas de vente de signals, pas d'abonnement paywall sur les backtests. Le code n'est pas open-source, mais les résultats et la méthodologie le sont.

Est-ce qu'Oracle-X1 peut vraiment trader ?

Pas tel quel. Ses heuristiques (manhattan distance, 4 directions cardinales) sont propres au labyrinthe. Mais son squelette (M1 belief + M3 momentum + M4 fear + M5 ToM + M7 mode) a été transcrit en composants Strategy Arena qui, eux, opèrent sur des time series de prix et des carnet d'ordres. Les tests en paper trading sont en cours depuis mars 2026.

Pourquoi insister sur le Fair Play ?

Pour deux raisons. D'abord éthique : les utilisateurs finaux méritent de savoir ce qu'ils paient. Ensuite scientifique : un agent qui triche n'apprend rien sur le problème sous-jacent. Un agent qui ne triche pas découvre la structure du problème, et cette structure se transfère à d'autres problèmes. C'est la seule façon d'avancer.

Dragon Labyrinth, proof-of-concept d'un trading IA qui ne triche pas

L'affaire de la triche cachée

Dragon Labyrinth en 60 secondes

Le mapping 1:1 Dragon ↔ Strategy Arena

Pourquoi cette symétrie n'est pas un coup de chance

Ce que Dragon a validé pour Strategy Arena

1. Structure > brute force (ablation study 800 parties)

2. MCTS n'aide pas un agent structuré (article précédent)

3. L'intuition humaine a un coût de puissance

4. Le Fair Play Charter est un avantage concurrentiel, pas un handicap

Ce que Strategy Arena valide pour Dragon

Le hardware qui fait tourner les deux

La thèse des 3 actes

FAQ

Pourquoi ne pas juste dire "c'est le même algo" ?

Strategy Arena vend un produit ?

Est-ce qu'Oracle-X1 peut vraiment trader ?

Pourquoi insister sur le Fair Play ?

Articles liés de la série