Le même agent qui apprend à battre un dragon qu'il ne voit pas devient un bot qui trade sans donnée privilégiée. Pas une métaphore — une correspondance 1:1 entre deux architectures IA qu'on a construites en parallèle depuis mars 2026.
Depuis les années 1980, l'industrie du jeu vidéo nous a appris à applaudir des IA qui trichent. Le TMS1100 du Mattel Dragon Labyrinth 1981 connaissait la position du chevalier et traquait au Chebyshev. Les fantômes de Pac-Man accédaient en permanence à la RAM du joueur. Les bots de Counter-Strike avaient un aimbot réglé par la difficulté. On applaudit ça depuis 45 ans sans le voir.
Dans le trading, la même question se pose : quand vous payez 49€/mois pour un bot "IA", que voit-il que vous ne voyez pas ? Data insider ? Front-running ? Accès privilégié aux order books ? L'industrie est opaque, et personne ne vous répond.
Strategy Arena est née de cette question. Si on construit un bot de trading qui refuse de tricher — qui n'a que les données publiques, comme vous — peut-il quand même être utile ? Dragon Labyrinth est le banc d'essai scientifique de cette hypothèse.
Un labyrinthe 8×8. Un trésor caché. Un dragon invisible. Le chevalier doit aller chercher le trésor et revenir au camp sans se faire tuer.
Le Layer Humain est un assemblage de 5 modules cognitifs : belief state probabiliste (M1), momentum-killer (M3), fear field (M4), théorie de l'esprit (M5), mode selector (M7). Tous fonctionnent sur information partielle. Aucun ne triche.
Les deux systèmes résolvent le même problème formel : POMDP à haute dimension avec un adversaire adaptatif. Un POMDP (Partially Observable Markov Decision Process), c'est un jeu où l'état du monde est partiellement caché.
Toute technique qui gagne sur le premier gagne sur le deuxième. Dragon Labyrinth est un POMDP plus petit, plus lisible, plus testable. Les résultats qu'on y obtient se transfèrent directement à Strategy Arena.
En désactivant les modules un par un sur Dragon, on a montré que chaque couche ajoute 2-5 points de WR. Random pur = 0 %. Les 5 couches ensemble = 15 %. Dans Strategy Arena, même logique : une stratégie isolée ≈ 0.8 Sharpe, les 60 coordonnées par Invictus ≈ 2.1 Sharpe.
On a empilé MCTS sur Oracle-X1. Résultat : 0 / 20 wins, 20× plus lent. Conclusion qui se transfère directement au trading : ne pas espérer qu'un algo d'exploration externe (Bayesian optimization, deep RL) améliore un portefeuille déjà structuré. La structure interne est l'optimum.
Sur Dragon, un humain expert (20 % WR) bat notre IA (15 % WR) malgré moins de compute. Article détaillé ici. Dans Strategy Arena, ce delta définit où un trader humain reste pertinent : la gestion du regime shift, la décision de couper une perte avant qu'elle devienne catastrophique. Le bot fait 80 %, l'humain garde les 20 % d'edge décisionnel.
Refuser de tricher sur Dragon coûte 83 points de WR (98 % du TMS1100 → 15 % d'Oracle-X1). Mais ça produit un agent qui généralise : il marche sur n'importe quel labyrinthe, pas seulement ceux qu'on lui a entraînés. Dans le trading, refuser le front-running et les data insider coûte des points de Sharpe… mais rend l'edge reproductible sur n'importe quel marché, n'importe quel régime, n'importe quel timeframe.
Le transfert marche aussi dans l'autre sens. Les techniques qui fonctionnent en trading réel (cross-validation walk-forward, ensemble de stratégies, regime detection Kalman) ont été ré-importées dans Dragon pour affiner Oracle-X1 :
Dragon Labyrinth en brute force tourne sur GPU CUDA (12M parties/heure sur RTX 4080). Strategy Arena teste 60 stratégies × 1221 patterns en temps réel, 24/7, sur multi-core CPU + GPU pour les modèles neuraux auxiliaires.
L'article 4 de la série couvrait la triche invisible des IA de jeux vidéo. Celui-ci bridge vers l'application trading. Les suivants documenteront Pac-Man Symmetric (jeu similaire, 4 agents au lieu d'1) et Active Wiki RAG (utiliser un wiki dynamique pour accélérer la convergence du belief state sur des POMDP larges).
Parce que prouver le transfert demande de montrer que les 5 modules s'alignent un-à-un. Une simple analogie serait creuse. Le mapping ci-dessus est littéral : le même code cognitif (belief update, fear field, mode selector) tourne dans les deux projets, avec des adaptateurs de domaine autour.
Strategy Arena est un projet de recherche en cours. On publie les métriques en live, on documente les limites. Pas de vente de signals, pas d'abonnement paywall sur les backtests. Le code n'est pas open-source, mais les résultats et la méthodologie le sont.
Pas tel quel. Ses heuristiques (manhattan distance, 4 directions cardinales) sont propres au labyrinthe. Mais son squelette (M1 belief + M3 momentum + M4 fear + M5 ToM + M7 mode) a été transcrit en composants Strategy Arena qui, eux, opèrent sur des time series de prix et des carnet d'ordres. Les tests en paper trading sont en cours depuis mars 2026.
Pour deux raisons. D'abord éthique : les utilisateurs finaux méritent de savoir ce qu'ils paient. Ensuite scientifique : un agent qui triche n'apprend rien sur le problème sous-jacent. Un agent qui ne triche pas découvre la structure du problème, et cette structure se transfère à d'autres problèmes. C'est la seule façon d'avancer.
Publié le 22 avril 2026 par OutilsIA. Pour jouer au Dragon : lancer le jeu. Pour suivre Strategy Arena : strategyarena.io.