Pourquoi GPT-OSS 120B tourne-t-il plus vite que Llama 70B sur Strix Halo ?

Architecture MoE (Mixture of Experts). GPT-OSS 120B n'active qu'environ 13B de params experts à chaque token (sur 120B totaux). La vitesse d'inference dépend des params actifs lus en mémoire à chaque token — pas de la taille totale du modèle. Résultat : sur Strix Halo 128 Go, GPT-OSS 120B atteint ~35 tokens/seconde, alors que Llama 70B dense (lit ses 70B params à chaque token) plafonne à ~5 tokens/seconde sur la même machine.

Mini-PC Ryzen Strix Halo 128 GB : 10 actions essentielles pour ton premier LLM 70B en local (2026)

TL;DR — la séquence en 10 étapes : (1) Choisir l'OS (Ubuntu 26.04 = défaut IA, Windows 11 = polyvalent), (2) Installer ROCm 6.4+, (3) Installer Ollama + LM Studio, (4) Premier modèle Qwen 7B pour valider, (5) Installer Claude Code natif (le différentiateur Strix Halo vs DGX Spark), (6) Comprendre MoE vs dense (pourquoi GPT-OSS 120B fait 35 t/s alors que Llama 70B fait 5 t/s), (7) Monitoring thermique (mini-PC = boîtier compact, à surveiller), (8) Setup headless + Tailscale, (9) Premier agent autonome 24/7, (10) Snapshot/backup avant les expérimentations risquées. Compter ~2 h pour la séquence complète si tout passe du premier coup.

D'abord : où tu en es exactement ?

Tu as un mini-PC AMD Ryzen AI Max+ 395 "Strix Halo" avec 128 Go de RAM unifiée LPDDR5X, un iGPU RDNA 3.5 (40 Compute Units, ~50 TFLOPS FP16) et un NPU XDNA 2 (50 TOPS). Ce n'est pas un PC de gamer, ce n'est pas un Mac, ce n'est pas un workstation NVIDIA. C'est une nouvelle catégorie : le desktop IA silencieux x86 à mémoire unifiée massive.

Trois SKUs principaux dominent le marché en mai 2026 :

Beelink GTR9 Pro 128 GB — ~2200-2400 € TTC, format mini-tour, le plus populaire en Europe
GMK EVO-X2 128 GB — ~2300-2500 €, design plus pro, refroidissement amélioré
Minisforum AI 395 128 GB — ~2400-2600 €, build qualité supérieure, dispo limitée
Framework Desktop 128 GB — modulaire, idéal Linux pur, prix variable selon config

La séquence ci-dessous marche sur les quatre. Différences mineures sur le BIOS (entrée Del/F2/F12), le BIOS thermique (certains laissent plus de TDP), la qualité des ventilateurs. Le reste est identique.

Action 1 : Choisir ton OS (le seul vrai choix structurant)

C'est la décision la plus importante du premier boot. Elle conditionne tout ton workflow IA pour les 6-12 mois à venir. Trois options viables, chacune avec son trade-off :

OS	Force	Faiblesse	Pour qui ?
Ubuntu 26.04 LTS	Stack ML mature (ROCm officiel, PyTorch optimisé, écosystème HuggingFace natif)	Pas de Steam, pas d'Office natif, friction périphériques pro	IA pure, dev backend, agent 24/7 headless
Windows 11	Tout marche (jeux, Adobe, Office). Claude Code natif. Ollama via WSL2 ROCm	WSL2 ROCm = layer supplémentaire, légère perte perf, plus de friction setup	Machine polyvalente IA + perso + jeux
Dual-boot Windows + Ubuntu	Best of both worlds	1h de setup en plus, partition à gérer	Power user qui veut séparer les usages

💡 Notre reco honnête — Si tu débutes en IA locale, prends Ubuntu 26.04 LTS. Tout est officiellement supporté, ROCm est en build natif, les drivers AMD sont propres dès la sortie de la boîte. Tu gagnes 2-3 heures de friction Windows-WSL et tu évites les "pourquoi mon Ollama ne voit pas mon GPU". Si tu veux une machine polyvalente (jeux + IA + bureautique), prends Windows 11 — Claude Code reste natif et c'est largement viable, juste un peu plus de bricolage initial.

Action 2 : Installer ROCm 6.4+ (sur Ubuntu)

ROCm est l'équivalent CUDA d'AMD — la couche logicielle qui permet à Ollama, LM Studio, vLLM et PyTorch d'utiliser ton iGPU RDNA 3.5. AMD a publié le support officiel ROCm 6.4+ pour Strix Halo / Ryzen AI 300 fin 2025. Ce n'est plus de l'expérimental : c'est stable, documenté, supporté.

# Méthode propre Ubuntu 26.04
sudo apt update && sudo apt upgrade -y
wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/noble/amdgpu-install_X.X.X.deb
sudo apt install ./amdgpu-install_*.deb
sudo amdgpu-install --usecase=rocm,opencl --no-dkms
sudo usermod -a -G render,video $USER
sudo reboot

# Après reboot, vérification
rocminfo | grep -A 2 "Agent"
# Tu dois voir ton iGPU "gfx1150" (Strix Halo) listé

Si rocminfo ne voit pas l'iGPU, vérifie : (a) BIOS — l'iGPU doit être activé (par défaut oui), (b) ton user est dans les groupes render et video (déconnexion + reconnexion nécessaire), (c) tu as bien rebooté. Ne JAMAIS utiliser --dkms sur Strix Halo en mai 2026 — le module DKMS a des conflits connus avec le kernel 6.8+. Le flag --no-dkms utilise le driver kernel inbox, plus stable.

Compter 30-45 minutes pour cette étape si tout passe du premier coup. Si ça galère (rare mais possible), basculer sur Vulkan RADV comme backend de fallback — Ollama supporte Vulkan, perf -15% mais ça marche partout.

Action 3 : Installer Ollama + LM Studio

Deux outils, deux usages complémentaires.

Ollama = ligne de commande, scriptable, parfait pour les agents et le backend.

curl -fsSL https://ollama.com/install.sh | sh
ollama --version
# Vérifier qu'Ollama voit ROCm
ollama run --verbose qwen2.5:7b "Bonjour"
# Dans la sortie debug, tu dois voir "ROCm" comme backend

LM Studio = GUI desktop, parfait pour comparer des modèles, tester du prompt rapidement, choisir une quantization.

# Télécharger le .deb (ou AppImage) depuis lmstudio.ai
sudo dpkg -i LM-Studio-*.deb
# Lancer LM Studio, aller dans Settings > Inference Engine
# Sélectionner "ROCm (AMD)" comme backend par défaut

Tu n'as pas besoin des deux à long terme — la plupart des power users finissent sur Ollama pour la prod et LM Studio pour le test. Au premier boot, installe les deux pour ne pas avoir à choisir tout de suite.

Action 4 : Premier modèle test (commence petit)

Erreur classique du premier boot : télécharger un Llama 70B Q4 (40 GB, 30-60 minutes selon ta connexion) et découvrir 1 heure plus tard qu'Ollama ne parle pas à ROCm. Tu as perdu 1 heure et tu ne sais même pas pourquoi.

Bonne séquence : monter par paliers, valider à chaque étape.

Étape	Modèle	Taille DL	Objectif
1	`ollama run qwen2.5:7b`	~4.5 GB	Valider Ollama + ROCm
2	`ollama run qwen3:14b`	~9 GB	Confort 14B (rapide, qualité OK)
3	`ollama run qwen3:32b`	~20 GB	Sweet spot dense (utilisation quotidienne)
4	`ollama run gpt-oss:120b`	~65 GB	Effet wow MoE (35 t/s !)
5	`ollama run llama3.3:70b`	~40 GB	Référence dense 70B (~5 t/s, lent mais utilisable)

À chaque étape, lance une question type "Explique-moi le théorème de Bayes en 3 phrases" et vérifie que ça répond en français correct. Si le modèle bug ou que la sortie est gibberish, c'est un problème de quantization corrompue ou de version Ollama trop vieille — ollama pull --force MODEL et relance.

Action 5 : Installer Claude Code (le différentiateur Strix Halo)

C'est l'avantage que Strix Halo a sur n'importe quelle alternative ARM (DGX Spark, ASUS GX10) : Claude Code tourne nativement. Pas de hack, pas de "ARM build à risque", pas de "ça devrait marcher". Tu installes, ça marche, c'est testé et supporté Anthropic officiel.

# Prérequis : Node.js 20+ (sinon : sudo apt install nodejs npm)
npm install -g @anthropic-ai/claude-code
claude --version
# Setup avec ta clé API Anthropic
claude
# Suit l'auth Web (ou clé API si tu préfères)

Tu as maintenant l'agent code Anthropic en local, qui peut lire ton repo, exécuter des commandes shell, modifier tes fichiers — mais avec ses requêtes LLM qui partent chez Anthropic (pas en pure local). Pour le coding agentique sérieux, c'est la combinaison gagnante : Claude Code pour le raisonnement (Opus 4.7 reste imbattable), Ollama local pour les requêtes sensibles ou les batch (Qwen 32B, GPT-OSS 120B).

✅ Pourquoi c'est le killer feature — Sur un DGX Spark ARM, Claude Code n'est pas officiellement supporté. Tu paries sur un binaire Node.js ARM non testé en prod par Anthropic. Sur Strix Halo x86, c'est du natif testé et à jour. Si tu codes 4-6 h/jour avec Claude Code, ce point seul justifie le choix de plateforme.

Action 6 : Comprendre MoE vs dense (la révélation perf)

Premier choc du premier boot Strix Halo : les chiffres tokens/seconde varient énormément selon le modèle. Un Llama 70B dense plafonne à ~5 t/s. Un GPT-OSS 120B atteint ~35 t/s. Pourquoi un modèle plus gros est-il 7× plus rapide ?

Réponse : architecture MoE (Mixture of Experts). Un modèle MoE n'active que ses params experts à chaque token, pas la totalité. GPT-OSS 120B a ~13 GB de params actifs sur 65 GB total Q4. La vitesse d'inference dépend de la mémoire lue à chaque token, pas de la taille totale du modèle.

Mesures observées sur Strix Halo 128 GB en mai 2026 :

Modèle (Q4)	Type	Tokens/sec	VRAM totale
Qwen 3 14B	Dense	~25 t/s	9 GB
Qwen 3 32B	Dense	~15 t/s	20 GB
Llama 3.3 70B	Dense	~5 t/s	40 GB
GPT-OSS 120B	MoE (~13B actifs)	~35 t/s	65 GB
Llama 4 Scout 109B	MoE (~17B actifs)	~30 t/s	65 GB
Gemma 4 9B	Dense	~50 t/s	6 GB

💡 La leçon pratique — Sur Strix Halo, privilégie les modèles MoE quand la vitesse compte. GPT-OSS 120B est largement plus rapide ET plus capable qu'un Llama 70B dense. Garde les modèles dense (Llama 70B, Qwen 32B) pour les use cases où tu as besoin d'un modèle spécifique, sinon par défaut MoE. Voir notre configurateur Mon PC peut-il qui distingue les deux dans la projection workloads.

Action 7 : Le piège thermique du mini-PC (à anticiper avant de cramer)

Un mini-PC = boîtier compact = refroidissement limité. Sous charge IA soutenue (LLM inference 30 minutes ou fine-tuning de 4 heures), le ventilateur passe à 100% et la température CPU/iGPU monte vite. Pas dramatique sur 5-10 minutes, problématique sur des sessions longues.

Ce qu'il faut installer dès le premier boot :

sudo apt install lm-sensors radeontop
sudo sensors-detect --auto
sensors
# Vérifie les températures k10temp (CPU) et amdgpu (iGPU)
# Au repos : 35-45°C. Sous charge : ne devrait pas dépasser 85-90°C en sustained

Pour le monitoring iGPU temps réel pendant un benchmark IA :

amdgpu_top  # GUI si tu es sur desktop
# OU
nvtop  # Oui, ça marche aussi pour AMD malgré le nom

Si tu vois ton iGPU à 95°C+ sustained ou que le ventilateur sature, deux options :

Undervolt via BIOS : -50 mV CPU et iGPU = -8°C en moyenne, perte perf <2%
Refroidissement actif : ventilateur USB orienté sur le boîtier ou support en hauteur pour améliorer le flux
cTDP bas : plafonner le TDP à 100 W au lieu de 120 W via BIOS — perte perf 10%, gain thermique massif

Action 8 : Setup headless + Tailscale (libère ton bureau)

Une fois le premier boot validé, tu n'as plus besoin de l'écran/clavier/souris physique. Setup headless via SSH = ton mini-PC disparaît dans un coin et tu y accèdes depuis ton laptop principal.

sudo apt install openssh-server
sudo systemctl enable --now ssh
# Sur ton laptop principal :
ssh-copy-id [email protected]

# Bonus : Tailscale = SSH depuis n'importe où sans port forwarding
curl -fsSL https://tailscale.com/install.sh | sh
sudo tailscale up
# Ton mini-PC est accessible depuis ton iPhone, Mac, Windows, n'importe quel device sur ton tailnet

Setup typique d'un power user en mai 2026 : mini-PC Strix Halo dans un placard, accès SSH/Tailscale depuis le MacBook, IDE local (VS Code Remote SSH ou Cursor), Ollama qui tourne en daemon. Le bureau reste libre, le bruit du fan est inaudible, l'IA tourne à demande.

Action 9 : Premier agent autonome 24/7 (le use case qui justifie l'achat)

C'est le use case qui transforme une "machine à benchmark" en investissement rentable : faire tourner un agent IA 24/7 qui bosse sur ton repo, ton backlog, ta veille, ton inbox. Avec 128 GB unified, tu peux orchestrer 4-5 agents IA en parallèle via Docker ou Proxmox/LXC.

Setup type "AI intern" en local :

Un agent qui code — Claude Code (cloud reasoning) + Qwen 3 32B local pour les tâches autonomes
Un agent qui review le code — GPT-OSS 120B en lecture des PRs
Un agent qui résume tes inbox/Slack — Qwen 3 14B + RAG sur tes docs
Un agent TTS/STT — Whisper local + Kokoro TTS pour les notes vocales
Un agent veille — qui scrape RSS et te résume au matin

Tout ça en local, 100% privé, sans abonnement cloud. C'est la vraie valeur Strix Halo : pas la perf brute, mais le budget IA prévisible et la souveraineté des données.

Action 10 : Snapshot avant les expérimentations

Tu vas casser ton install. C'est inévitable. ROCm va casser après une mise à jour kernel, Ollama va se mélanger les pinceaux après un changement de version, Docker va manger ton disque. Snapshot avant chaque session expérimentale risquée :

# BTRFS / ZFS si tu as choisi à l'install : snapshot natif
sudo btrfs subvolume snapshot / /.snapshots/avant-experiment-$(date +%F)

# Sinon : Timeshift (GUI propre, idéal débutant)
sudo apt install timeshift
sudo timeshift --create --comments "Premier boot OK, avant ROCm"

Si quelque chose casse (et ça arrivera), tu rollback en 5 minutes au lieu de réinstaller 2 heures. C'est la différence entre un week-end perdu et une expérimentation tranquille.

Le piège qu'on te dit pas : les premières 48h sont les pires

Honnêteté : les premières 48 heures avec un mini-PC Strix Halo, c'est de la friction. Drivers à mettre à jour, ROCm à débugger, Ollama qui ne voit pas l'iGPU, Llama 70B qui crashe en out-of-memory parce que tu as oublié que 40 GB Q4 + buffer = 48 GB, le ventilateur qui hurle pendant ton premier benchmark. Pas de panique, c'est normal.

Ce qui change après 48h : la machine devient invisible. Elle tourne dans un coin, headless, alimentant tes agents et ton workflow IA local. Une fois passée la friction setup, c'est la machine la plus sereine que tu auras jamais eue. Pas de "abonnement renouvelé", pas de "rate limit atteint", pas de "service indisponible". Juste de l'IA qui répond.

Si tu veux pousser plus loin : le build hybride

Pour les power users avec un budget supplémentaire (~4000 € total), le setup hybride Strix Halo + RTX 3090 24 GB en eGPU/PCIe est devenu un pattern intéressant en mai 2026. Strix Halo gère la mémoire (128 GB unified), la 3090 gère la vitesse pure (CUDA + 936 GB/s bandwidth). Sur le papier, c'est parfait.

Le vrai piège : les connecter proprement. eGPU via OCuLink ou Thunderbolt 4, drivers AMD + NVIDIA cohabiter sur le même OS, llama.cpp qui doit choisir le bon backend selon le modèle. C'est faisable, mais compter 1-2 jours de bricolage en plus du setup standard. À garder pour quand tu maîtrises déjà Strix Halo seul.

Récap final : la séquence en checklist

#	Action	Durée	Critique ?
1	Choix OS (Ubuntu 26.04 reco)	~30 min install	⭐⭐⭐⭐⭐
2	Install ROCm 6.4+	~30-45 min	⭐⭐⭐⭐⭐
3	Install Ollama + LM Studio	~10 min	⭐⭐⭐⭐⭐
4	Premier modèle test (Qwen 7B)	~5 min	⭐⭐⭐⭐
5	Install Claude Code natif	~5 min	⭐⭐⭐⭐ (si tu codes)
6	Tester 1 MoE (GPT-OSS 120B)	~30 min DL	⭐⭐⭐⭐
7	Setup monitoring thermique	~10 min	⭐⭐⭐
8	Headless + Tailscale	~15 min	⭐⭐⭐
9	Premier agent autonome	~30 min-2h selon use case	⭐⭐
10	Snapshot Timeshift	~5 min	⭐⭐⭐⭐

Total : ~2 h pour la séquence critique (étapes 1-5), ~3-4 h pour la séquence complète. Si tout passe du premier coup, tu as un mini-PC IA opérationnel en une après-midi.

FAQ

Quel OS choisir pour un mini-PC Strix Halo en 2026 ?

Ubuntu 26.04 LTS pour l'IA pure (ROCm officiel, stack ML mature). Windows 11 si tu veux machine polyvalente IA + jeux + Office. Dual-boot pour les power users.

Comment installer ROCm 6.x sur Strix Halo Ubuntu 26.04 ?

Télécharger amdgpu-install depuis le site AMD, lancer sudo amdgpu-install --usecase=rocm --no-dkms, ajouter user aux groupes render/video, reboot, vérifier avec rocminfo. ~30-45 min.

Quel premier modèle LLM tester sur Strix Halo après le boot ?

Démarre par Qwen 2.5 7B (~4.5 GB) pour valider la stack ROCm + Ollama. Puis monte par paliers : 14B, 32B, GPT-OSS 120B (effet wow MoE), Llama 70B en dernier.

Claude Code marche-t-il sur Strix Halo en 2026 ?

Oui, nativement (x86 Linux et Windows). C'est le différentiateur principal vs DGX Spark ARM où Claude Code n'est pas officiellement supporté.

Pourquoi GPT-OSS 120B tourne plus vite que Llama 70B sur Strix Halo ?

Architecture MoE : seuls ~13B params actifs sont lus à chaque token (sur 120B totaux). Vitesse dépend des params actifs, pas de la taille totale.

Comment surveiller la température d'un mini-PC Strix Halo ?

Linux : sensors + amdgpu_top + nvtop. Windows : HWiNFO64. Ne pas dépasser 85-90°C en sustained. Undervolt -50 mV via BIOS si nécessaire.

🛠️ Tu veux aller plus loin avec ton mini-PC IA ?

Teste ce que ta config peut vraiment faire (projection LLM tokens/sec, image gen, fine-tuning). Ou compare avec son cousin DGX Spark.

Mon PC peut-il ? Upgrade Advisor DGX Spark vs Strix Halo

Sources et lectures complémentaires

Guide pratique éditorial. OutilsIA.fr publie des guides hardware indépendants. Estimations de performance basées sur retours utilisateurs et benchmarks publics — chiffres réels susceptibles de varier ±20% selon configuration logicielle exacte (version ROCm, kernel, quantization, BIOS). En tant que partenaire Amazon, OutilsIA.fr peut percevoir une commission sur les achats éligibles.

Mini-PC Ryzen Strix Halo 128 GB :
les 10 actions essentielles avant ton premier LLM 70B