Name: Dragon Labyrinth 14,580 Trials Benchmark
Creator: Strategy Arena Research
License: https://creativecommons.org/licenses/by/4.0/

Un chip de 1980 bat toutes les IA de 2026. Et toi ?

Le Dragon Labyrinth est un probleme de deduction sous information incomplete. Simple en apparence, brutal pour les LLMs.

Dragon invisible original Sprite visible decouverte

2 joueurs humains

Un telephone joue le chevalier, l'autre joue le dragon. Le serveur arbitre les murs, les tours et la victoire.

Mode reseau pret. Cree un duel puis ouvre le lien sur le second telephone.

Tu es le chevalier dans un labyrinthe 8x8.

Trouve les 2 cles mentales: poser un bon camp, lire les murs, puis voler le tresor.

Le dragon est invisible. Il dort au debut, puis peut se reveiller quand tu approches du tresor.

Humains: 98% de parties terminees en live. LLMs frontier: 0-15% selon le prompt.

98%Humains

0-15%IA / LLMs

À propos du Dragon Labyrinth

Le benchmark IA le plus contre-intuitif de 2026 : un microcontrôleur 4-bit de 1980 bat systématiquement les frontier LLMs.

Le jeu original : Mattel D&D Computer Labyrinth (1981)

En 1981, Mattel sort un boîtier électronique pour enfants : le D&D Computer Labyrinth Game. Un échiquier 8×8 avec un dragon invisible qui poursuit le chevalier. Le dragon est contrôlé par un Texas Instruments TMS1100, un microcontrôleur 4-bit cadencé à 475 kHz, avec seulement 32 octets de RAM et 2 Ko de ROM. Six lignes de code Manhattan suffisent à coder son comportement. Le jeu est en observabilité partielle : le chevalier ne voit pas le dragon, et inversement.

Le benchmark 2026 : pourquoi ce dragon écrase les frontier LLMs

En mai 2026, OutilsIA a reproduit fidèlement l'environnement Mattel et lancé les modèles IA frontier — Claude Opus 4.6, GPT-5, Gemini 2.5 — contre le dragon TMS1100. Méthodologie rigoureuse : 14 580 trials avec seeds fixes, 7 ablations (M1 belief filter, M2 radius, M3 strategy).

Le verdict est sans appel :

Dragon TMS1100 (1981) : 85 % de win rate face aux frontier LLMs (paper en submission arXiv). En live sur OutilsIA face aux joueurs humains : 98 % sur 53 parties terminées.
LLMs frontier (Claude 4.6, GPT-5, Gemini 2.5) : 0 à 15 % de win rate selon le prompt. Boucle d'oscillation fatale : ils se déplacent vers le trésor sans jamais éliminer les hypothèses de position du dragon.
MCTS brute force (CUDA, 12 millions de parties) : ~2 % de win rate. La puissance brute ne suffit pas en observabilité partielle.
Oracle-X1 avec belief tracking bayésien (système OutilsIA) : ~15 % de win rate. Première approche IA qui dépasse le brute force en observabilité partielle.

Pourquoi c'est important pour l'IA en 2026

Le Dragon Labyrinth est devenu un benchmark de référence pour mesurer la capacité de raisonnement sous information incomplète (POMDP — Partially Observable Markov Decision Process). Le résultat counter-intuitif — un chip 4-bit de 1980 bat un LLM 1000× plus gros — illustre une thèse forte : la structure algorithmique simple bat le scaling brute sur certaines classes de problèmes. C'est exactement ce que le paper OutilsIA × Strategy Arena Research documente avec 14 580 trials reproductibles.

Le code source du simulateur, les CSV bruts des 14 580 parties, et les 7 ablations sont publiés en CC-BY 4.0 pour reproduction. C'est un asset citable par la communauté académique RL/POMDP.

Comment jouer (règles brèves)

L'échiquier fait 8×8 cases. Tu es le chevalier, tu commences au camp (en bas).
Tu te déplaces case par case (flèches du clavier). Tu ne vois pas le dragon — il est invisible.
Tu sens la proximité du dragon (barre de chaleur en haut) à 3 cases ou moins.
Objectif : trouver le trésor caché (position contrainte par les règles Mattel : Manhattan ≥ 5 du camp, intérieur de l'échiquier) et le ramener au camp.
Le dragon te tue en 3 coups. À chaque mouvement du chevalier, le dragon bouge selon son algorithme TMS1100 — déterministe mais imprévisible sans modèle interne.
Touches : Flèches bouger · Espace passer · Entrée placer camp · R rejouer.

Stratégies humaines documentées

Les rares humains qui battent le dragon utilisent la déduction bayésienne implicite : à chaque case visitée sans déclencher d'alerte, ils éliminent mentalement les hypothèses de position du dragon dans la boule Manhattan-3. Au bout de 8-12 mouvements, l'ensemble des hypothèses se réduit à 5-10 candidats. Ils simulent ensuite la trajectoire du dragon pour anticiper. Cette stratégie est exactement celle qu'Oracle-X1 implémente en code explicite — sauf que les humains la font intuitivement, et les LLMs n'y arrivent pas.

Pour aller plus loin

📊 Dragon Open Challenge — soumets ton agent IA, leaderboard public, 100 parties standardisées
📰 Article complet : le benchmark Dragon Labyrinth
🔬 Ablation study : ce qui fait gagner Oracle-X1
🧠 Le piège de la simplicité — pourquoi les LLMs perdent
🎯 MCTS brute force vs Oracle-X1 : pourquoi 12 millions de parties ne suffisent pas
🏗 Patterns gagnants Dragon Labyrinth — analyse sur 5000 parties

Dataset Dragon Labyrinth Benchmark : CC-BY 4.0 — citable par la recherche académique RL / POMDP.

🔬 Pour les chercheurs

Cette page est l'interface utilisateur (« try it ») d'un benchmark scientifique publié par Strategy Arena Research. Pour la documentation complète, le dataset reproductible et la méthodologie :

Citation BibTeX disponible sur la page paper. Le canonical "try it" reste outilsia.fr/games/dnd-labyrinth ; le canonical "research" est strategyarena.io/dragon-labyrinth-benchmark.

Un chip de 1980 bat toutes les IA de 2026. Et toi ?

2 joueurs humains

🐉 D&D LABYRINTH

Mode de base

Laboratoire IA (experimental)

Leaderboard Dragon Labyrinth

Top 10 humains

Top 10 IA / bots