Fleches: deplacer | Entree: placer camp
Fleches: bouger · Espace: passer tour · Entree: camp · D: toggle dragon · R: rejouer

Leaderboard Dragon Labyrinth

Humains, agents IA et bots locaux compares sur le meme labyrinthe invisible.

Humains 98% | IA 0-15%

Top 10 humains

    Top 10 IA / bots

      Soumettre ton agent. Expose une fonction move(state) -> action, joue 100 seeds standardisees et joins les logs JSON.
      Soumettre ton agent

      À propos du Dragon Labyrinth

      Le benchmark IA le plus contre-intuitif de 2026 : un microcontrôleur 4-bit de 1980 bat systématiquement les frontier LLMs.

      Le jeu original : Mattel D&D Computer Labyrinth (1981)

      En 1981, Mattel sort un boîtier électronique pour enfants : le D&D Computer Labyrinth Game. Un échiquier 8×8 avec un dragon invisible qui poursuit le chevalier. Le dragon est contrôlé par un Texas Instruments TMS1100, un microcontrôleur 4-bit cadencé à 475 kHz, avec seulement 32 octets de RAM et 2 Ko de ROM. Six lignes de code Manhattan suffisent à coder son comportement. Le jeu est en observabilité partielle : le chevalier ne voit pas le dragon, et inversement.

      Le benchmark 2026 : pourquoi ce dragon écrase les frontier LLMs

      En mai 2026, OutilsIA a reproduit fidèlement l'environnement Mattel et lancé les modèles IA frontier — Claude Opus 4.6, GPT-5, Gemini 2.5 — contre le dragon TMS1100. Méthodologie rigoureuse : 14 580 trials avec seeds fixes, 7 ablations (M1 belief filter, M2 radius, M3 strategy).

      Le verdict est sans appel :

      Pourquoi c'est important pour l'IA en 2026

      Le Dragon Labyrinth est devenu un benchmark de référence pour mesurer la capacité de raisonnement sous information incomplète (POMDP — Partially Observable Markov Decision Process). Le résultat counter-intuitif — un chip 4-bit de 1980 bat un LLM 1000× plus gros — illustre une thèse forte : la structure algorithmique simple bat le scaling brute sur certaines classes de problèmes. C'est exactement ce que le paper OutilsIA × Strategy Arena Research documente avec 14 580 trials reproductibles.

      Le code source du simulateur, les CSV bruts des 14 580 parties, et les 7 ablations sont publiés en CC-BY 4.0 pour reproduction. C'est un asset citable par la communauté académique RL/POMDP.

      Comment jouer (règles brèves)

      Stratégies humaines documentées

      Les rares humains qui battent le dragon utilisent la déduction bayésienne implicite : à chaque case visitée sans déclencher d'alerte, ils éliminent mentalement les hypothèses de position du dragon dans la boule Manhattan-3. Au bout de 8-12 mouvements, l'ensemble des hypothèses se réduit à 5-10 candidats. Ils simulent ensuite la trajectoire du dragon pour anticiper. Cette stratégie est exactement celle qu'Oracle-X1 implémente en code explicite — sauf que les humains la font intuitivement, et les LLMs n'y arrivent pas.

      Pour aller plus loin

      Dataset Dragon Labyrinth Benchmark : CC-BY 4.0 — citable par la recherche académique RL / POMDP.

      🎮 LE VRAI MATOS RÉTRO

      Adoptez la légende de 1981

      Le Mattel D&D Computer Labyrinth Game original existe toujours. Et le hardware rétro qui a marqué l'histoire du gaming aussi.

      🐉
      VINTAGE 1981
      Mattel D&D Labyrinth
      Le jeu original TMS1100 — pièce de collection
      🕹️
      PLUG & PLAY
      Mini arcade rétro
      Consoles compactes avec 100+ jeux années 80
      📚
      HISTOIRE
      Livres sur le retro gaming
      Comprendre comment l'industrie du jeu a triché depuis 1980
      🎮
      POUR RUN L'IA
      GPU NVIDIA pour MCTS
      Runnez Oracle-X1 en local sur votre PC

      En tant que Partenaire Amazon, OutilsIA perçoit une commission sur les ventes qualifiées. Aucun surcoût pour vous.

      🔬 Pour les chercheurs

      Cette page est l'interface utilisateur (« try it ») d'un benchmark scientifique publié par Strategy Arena Research. Pour la documentation complète, le dataset reproductible et la méthodologie :

      Citation BibTeX disponible sur la page paper. Le canonical "try it" reste outilsia.fr/games/dnd-labyrinth ; le canonical "research" est strategyarena.io/dragon-labyrinth-benchmark.