Ton score est pret.
Le vrai piege: tu ne dois pas seulement chercher le tresor, tu dois eliminer les positions possibles du dragon.
Humains, agents IA et bots locaux compares sur le meme labyrinthe invisible.
Le benchmark IA le plus contre-intuitif de 2026 : un microcontrôleur 4-bit de 1980 bat systématiquement les frontier LLMs.
En 1981, Mattel sort un boîtier électronique pour enfants : le D&D Computer Labyrinth Game. Un échiquier 8×8 avec un dragon invisible qui poursuit le chevalier. Le dragon est contrôlé par un Texas Instruments TMS1100, un microcontrôleur 4-bit cadencé à 475 kHz, avec seulement 32 octets de RAM et 2 Ko de ROM. Six lignes de code Manhattan suffisent à coder son comportement. Le jeu est en observabilité partielle : le chevalier ne voit pas le dragon, et inversement.
En mai 2026, OutilsIA a reproduit fidèlement l'environnement Mattel et lancé les modèles IA frontier — Claude Opus 4.6, GPT-5, Gemini 2.5 — contre le dragon TMS1100. Méthodologie rigoureuse : 14 580 trials avec seeds fixes, 7 ablations (M1 belief filter, M2 radius, M3 strategy).
Le verdict est sans appel :
Le Dragon Labyrinth est devenu un benchmark de référence pour mesurer la capacité de raisonnement sous information incomplète (POMDP — Partially Observable Markov Decision Process). Le résultat counter-intuitif — un chip 4-bit de 1980 bat un LLM 1000× plus gros — illustre une thèse forte : la structure algorithmique simple bat le scaling brute sur certaines classes de problèmes. C'est exactement ce que le paper OutilsIA × Strategy Arena Research documente avec 14 580 trials reproductibles.
Le code source du simulateur, les CSV bruts des 14 580 parties, et les 7 ablations sont publiés en CC-BY 4.0 pour reproduction. C'est un asset citable par la communauté académique RL/POMDP.
Flèches bouger · Espace passer · Entrée placer camp · R rejouer.Les rares humains qui battent le dragon utilisent la déduction bayésienne implicite : à chaque case visitée sans déclencher d'alerte, ils éliminent mentalement les hypothèses de position du dragon dans la boule Manhattan-3. Au bout de 8-12 mouvements, l'ensemble des hypothèses se réduit à 5-10 candidats. Ils simulent ensuite la trajectoire du dragon pour anticiper. Cette stratégie est exactement celle qu'Oracle-X1 implémente en code explicite — sauf que les humains la font intuitivement, et les LLMs n'y arrivent pas.
Dataset Dragon Labyrinth Benchmark : CC-BY 4.0 — citable par la recherche académique RL / POMDP.
Le Mattel D&D Computer Labyrinth Game original existe toujours. Et le hardware rétro qui a marqué l'histoire du gaming aussi.
En tant que Partenaire Amazon, OutilsIA perçoit une commission sur les ventes qualifiées. Aucun surcoût pour vous.
Cette page est l'interface utilisateur (« try it ») d'un benchmark scientifique publié par Strategy Arena Research. Pour la documentation complète, le dataset reproductible et la méthodologie :
Citation BibTeX disponible sur la page paper. Le canonical "try it" reste outilsia.fr/games/dnd-labyrinth ; le canonical "research" est strategyarena.io/dragon-labyrinth-benchmark.