TL;DR — Tu veux faire tourner Llama 70B en local ET garder Claude Code ? En mai 2026, c'est devenu un casse-tête. Le DGX Spark (et son cousin ASUS Ascent GX10) te donne CUDA + 128 Go unified pour ~3000-3500$, mais c'est de l'ARM avec DGX OS Ubuntu — Claude Code n'y est pas officiellement supporté. Le mini-PC AMD Ryzen AI Max+ "Strix Halo" 128 Go te donne x86 + Windows + Claude Code natif pour ~2200-2500€, mais pas de CUDA (ROCm 6.x à la place). Pour 80 % des devs FR qui me ressemblent, Strix Halo gagne — pas parce qu'il est meilleur sur le papier, mais parce qu'il ne te force pas à renoncer à ton outil principal.
Le dilemme en une phrase
Je veux deux choses simples. Faire tourner Llama 70B chez moi, en local, sans envoyer mon code chez Anthropic ou OpenAI à chaque requête. Et continuer à utiliser Claude Code, parce qu'aucun éditeur IA ne lui arrive à la cheville en 2026 pour les sessions complexes en boucle longue.
Apparemment, en mai 2026, c'est devenu mission impossible sub-3500€. Les deux machines qui te donnent 128 Go de RAM unifiée dans un format desktop silencieux sont :
- NVIDIA DGX Spark (vendu en marque blanche par ASUS Ascent GX10, MSI, Acer) — ARM Grace Blackwell, CUDA, mais OS Ubuntu DGX et zéro support Windows.
- Mini-PC AMD Ryzen AI Max+ "Strix Halo" (GMK, Beelink, Minisforum) — x86 Zen 5, RDNA 3.5 iGPU, Windows + Linux full, mais ROCm seulement.
L'une te force à renoncer à Claude Code (ou à parier sur un support ARM Linux non officiel). L'autre te force à renoncer à CUDA et son écosystème (xformers, bitsandbytes, triton, ComfyUI optimisé). Pas de bonne réponse universelle. Voici comment je l'ai tranché.
Pourquoi ce dilemme existe en 2026
NVIDIA et AMD se sont mis d'accord sans le faire exprès : la mémoire unifiée 128 Go dans un boîtier desktop silencieux, c'est la nouvelle catégorie. Avant, pour faire tourner Llama 70B en local, il te fallait soit un Mac Studio à 5500€+, soit un dual RTX 3090 bricolé, soit un serveur rack à 8000€+. En mai 2026, deux machines à 2200-3500€ couvrent ce besoin.
Mais elles le font avec des architectures radicalement opposées :
🟢 NVIDIA DGX Spark / ASUS Ascent GX10
Puce : NVIDIA GB10 Grace Blackwell — 20 cores ARM Neoverse V2 + GPU Blackwell intégré (~6144 cores CUDA, support FP4).
RAM : 128 Go LPDDR5X unifiée, ~273 GB/s bandwidth.
OS : DGX OS (basé Ubuntu Server) — pas de Windows possible.
TDP : ~170 W. Format mini-tour silencieuse.
Prix : ~3000-3500$ (≈ 3200-3800€ TTC en France).
Force : CUDA full stack. Tout l'écosystème ML moderne — PyTorch optimisé, xformers, bitsandbytes 4-bit, triton, ComfyUI Flux Dev FP16, Stable Diffusion XL en 1.5s — tourne sans hack.
Faiblesse : ARM. Tu perds tout ton stack x86 habituel. Pas de Steam, pas d'Adobe, pas de Docker x86, et — c'est le sujet de cet article — support Claude Code non officiel.
🔴 AMD Ryzen AI Max+ "Strix Halo" 128 GB
Puce : AMD Ryzen AI Max+ 395 — 16 cores Zen 5 + iGPU RDNA 3.5 (40 Compute Units, ~50 TFLOPS FP16) + NPU XDNA 2 (50 TOPS).
RAM : 128 Go LPDDR5X unifiée, ~256 GB/s bandwidth.
OS : Windows 11 + Linux x86 full + WSL2. Tu choisis ce que tu veux.
TDP : ~120 W. Format mini-PC silencieux (GMK EVO-X2, Beelink GTR9, etc.).
Prix : ~2200-2500€ TTC pour la config 128 GB unified.
Force : x86 universel. Tout marche : Claude Code natif, Cursor, Windsurf, Steam, Adobe, Docker x86, environnement de dev habituel. Et tu as toujours 128 Go de mémoire unifiée pour les LLM.
Faiblesse : pas de CUDA. ROCm 6.x supporte Llama / Ollama / vLLM convenablement, mais l'écosystème Stable Diffusion + fine-tuning + recherche ML reste majoritairement CUDA-first. Tu auras des "ROCm not supported" sur 1 lib sur 4.
Le deal-breaker dont personne ne parle assez : Claude Code sur ARM Linux
C'est l'angle critique que les reviews anglaises ne creusent pas, parce que les benchmarkers américains qui testent le DGX Spark ne dépendent pas de Claude Code au quotidien. Pour un dev FR qui en a fait son outil principal, c'est rédhibitoire.
⚠️ Statut Claude Code sur ARM Linux en mai 2026 :
- Support officiel Anthropic : Linux x86_64, macOS (Apple Silicon ARM ✓), Windows via WSL2.
- ARM Linux pur (cas DGX OS / Ubuntu ARM) : pas listé officiellement.
- Node.js ARM existe et le package npm
@anthropic-ai/claude-codepeut techniquement s'installer. - Mais : computer use, hooks shell complexes, plugins natifs, sandboxing — chaque feature peut casser sans préavis.
- Pas de garantie qu'une mise à jour ne casse pas ton workflow demain matin.
Pour un dev qui passe 4-6h par jour dans Claude Code, parier sur un support ARM Linux non officiel, c'est jouer à la roulette russe avec son outil principal. Si ça casse en plein milieu d'une session de refactor sur 30 fichiers, tu perds une journée. Et tu n'as pas de recours.
Sur Strix Halo, Claude Code tourne nativement sur Windows ou Linux x86. Pas de "peut-être", pas de "ça devrait marcher". C'est testé, supporté, à jour.
CUDA vs ROCm : le faux débat ?
L'autre angle qu'on présente comme un drame absolu : "sans CUDA, tu rates 50 % de l'écosystème ML". C'est vrai en 2024, c'est partiellement vrai en 2026.
État réel de ROCm 6.x sur Strix Halo en mai 2026 :
| Workload | ROCm 6.x sur Strix Halo | Verdict |
|---|---|---|
| Llama / Qwen / DeepSeek inference (Ollama, vLLM) | ✅ Supporté nativement | ~70% perf CUDA |
| LM Studio (GUI) | ✅ Build officiel ROCm | Fonctionnel |
| Stable Diffusion (Automatic1111, ComfyUI) | ⚠️ Builds ROCm spécifiques | ~60% perf CUDA, friction setup |
| Flux Dev / SD 3.5 Large | ⚠️ Quantizés OK, FP16 limité | Pas idéal |
| Fine-tuning QLoRA (transformers + bitsandbytes) | ❌ bitsandbytes ROCm en alpha | À éviter |
| Triton kernels custom | ❌ Très limité | À éviter |
| xformers, flash-attention 2 | ⚠️ Builds existent, instables | Marche au cas par cas |
Verdict honnête : si ton usage est LLM inference 80 % du temps + dev avec Claude Code, ROCm te suffit largement. Si tu fais du fine-tuning sérieux ou de la recherche ML, CUDA reste indispensable et le DGX Spark te le donne.
Performance réelle mesurée (estimations 2026)
Voici ce qu'on mesure (ou prédit fiablement, faute d'avoir testé personnellement les deux machines) sur les workloads typiques :
LLM inference
| Modèle (Q4) | DGX Spark / GX10 | Strix Halo 128 GB | Δ |
|---|---|---|---|
| Llama 3.1 8B | ~75 tok/s | ~50 tok/s | +50% |
| Qwen 3 32B | ~25 tok/s | ~15 tok/s | +67% |
| Llama 3.3 70B | ~12-15 tok/s | ~8-10 tok/s | +50% |
| Llama 4 Maverick (109B MoE) | ~10-12 tok/s | ~6-8 tok/s | +50% |
Spark gagne en moyenne +50 % sur l'inference LLM grâce à CUDA + efficacité Blackwell. Mais Strix Halo reste parfaitement utilisable sur 70B Q4 (10 tok/s = lecture confortable, pas de latence frustrante).
Génération d'image (1024×1024)
| Modèle | DGX Spark | Strix Halo (ROCm) | Δ |
|---|---|---|---|
| SDXL | ~3 s/img | ~7 s/img | +130% |
| Flux Schnell (4 steps) | ~2 s/img | ~5 s/img | +150% |
| Flux Dev FP16 (28 steps) | ~10 s/img | ~25-30 s/img | +150% |
Sur l'image gen, l'écart se creuse fortement. Si tu fais beaucoup de Stable Diffusion / Flux, le Spark devient nettement plus pertinent. Mais pour un usage LLM-first, l'écart est moins déterminant.
Fine-tuning QLoRA
DGX Spark : tu peux fine-tuner jusqu'à ~85B params en QLoRA Q4 avec bitsandbytes + transformers, infrastructure mature. Strix Halo : techniquement possible jusqu'à la même taille, mais bitsandbytes ROCm est en alpha en mai 2026, friction réelle. Pour qui fait du fine-tuning sérieux, Spark gagne sans débat.
5 personas concrets : qui prend quoi ?
1. Le dev solo qui code 6h/jour avec Claude Code
Tu utilises Claude Code en local pour bosser sur tes repos. Tu veux ajouter un LLM 70B local pour les requêtes sensibles, l'autonomie offline, l'indépendance vis-à-vis d'Anthropic. Mais tu refuses de lâcher Claude Code.
→ Strix Halo 128 GB. Sans hésiter. Le delta perf LLM (8 vs 12 tok/s) ne vaut pas le risque de casser ton outil principal.
2. Le chercheur LLM full-time
Tu fais du fine-tuning, tu testes des architectures custom, tu écris du PyTorch optimisé. Tu n'utilises pas (ou peu) Claude Code — tu vis dans Jupyter et tmux.
→ DGX Spark / GX10. CUDA + bitsandbytes + triton + xformers, c'est non négociable pour ton workflow.
3. Le créateur visuel (Stable Diffusion, Flux, ComfyUI à fond)
Tu génères 50-200 images par session. Tu veux Flux Dev FP16 fluide, ComfyUI custom workflows, fine-tune LoRA sur tes propres datasets.
→ DGX Spark. L'écart x2-3 en image gen est trop fort. ROCm sur SD a trop de friction.
4. Le bricoleur tout-terrain (IA + jeux + perso)
Tu veux une seule machine pour Steam, Photoshop, IA locale le soir, dev le week-end. Pas une machine dédiée IA.
→ Strix Halo. Windows + iGPU correct + 128 GB unified. Le Spark serait un gâchis : 95 % du temps ARM Ubuntu ne te servira pas.
5. L'agent autonome 24/7 silencieux (homelab, n8n, RAG perso)
Tu fais tourner un agent IA local en permanence : analyse mails, RAG sur tes docs, automation domestique. Pas de session interactive, pas de dev.
→ Strix Halo. TDP plus bas (120W vs 170W), Linux x86 stable, écosystème Docker x86 complet pour les containers d'agents.
Le piège qu'on te dit pas (côté ARM)
Au-delà de Claude Code, l'écosystème ARM Linux 2026 reste en retard sur x86 pour le dev pro :
- Docker : pas tous les containers x86 ont une variante
linux/arm64. Tu vas tomber sur des "no manifest for linux/arm64" sur des images de prod. - Outils dev propriétaires : JetBrains IDEs OK mais certains plugins cassent. Postman, TablePlus : OK. VS Code : OK. Mais l'écosystème Microsoft (Teams, Office natif) : limité.
- Steam : pas du tout. Si tu joues le soir, oublie.
- Adobe Creative Cloud : pas sur ARM Linux (Windows / Mac uniquement).
- Drivers / périphériques pro : caméras, scanners, MIDI — moins de support ARM Linux que x86 Linux.
Le DGX Spark est un workstation IA dédiée, pas une machine de tous les jours. Si tu attendais une seule machine pour tout faire, ce n'est pas elle.
Quel rapport perf/euro réel ?
Calcul honnête (mai 2026) en ramenant tout au LLM 70B Q4 (workload référence) :
| Machine | Prix TTC (FR) | Llama 70B Q4 | €/(tok/s) |
|---|---|---|---|
| Strix Halo 128 GB | ~2400€ | ~9 tok/s | 267€/tok/s |
| DGX Spark / GX10 | ~3500€ | ~13 tok/s | 269€/tok/s |
| Mac Studio M4 Ultra 128 GB | ~5500€ | ~18 tok/s | 306€/tok/s |
| RTX 5090 32 GB + 64 GB DDR5 | ~3000€ (build) | ~10 tok/s (offload) | 300€/tok/s |
Surprise : sur le LLM inference pur, le rapport perf/euro est quasi identique entre Spark et Strix Halo. Les 1100€ supplémentaires du Spark se justifient uniquement si tu valorises CUDA / image gen / fine-tuning. Pour un usage LLM-first, c'est de l'argent gâché.
Mon verdict perso (le moment de la vérité)
— Chris, OutilsIA, mai 2026
Voici les 3 raisons qui pèsent plus, dans mon cas perso, que les +50 % perf LLM du Spark :
- Claude Code = mon outil principal. Je perds 5-10h/semaine si je galère pour le faire tourner. Le delta de productivité écrase complètement le delta de tokens/sec.
- Llama 70B Q4 à 9 tok/s = utilisable. 30 % plus lent que 13 tok/s, mais pas frustrant. Au-dessus de 7 tok/s, ça lit confortablement. En dessous, c'est pénible.
- Windows + Linux x86 + WSL2 = polyvalence. La machine peut me servir aussi à autre chose qu'à l'IA. Le Spark est mono-usage par nature, à 3500€ c'est cher pour ça.
Le seul cas où je prendrais le Spark
Sois honnête sur ton usage. Tu prends le Spark uniquement si :
- Tu fais du fine-tuning hebdomadaire sur des modèles 13-30B (bitsandbytes mature en CUDA, pas en ROCm).
- Tu utilises Stable Diffusion / Flux à fond (image gen pro, ComfyUI custom workflows, LoRA training).
- Tu n'as pas Claude Code dans ton workflow quotidien (tu codes avec Cursor, Continue, Cline, ou pas du tout d'agent IA).
- Tu acceptes une machine dédiée IA, pas un PC généraliste.
Si 3 sur 4 cases sont cochées, le Spark vaut son delta de prix. Sinon, Strix Halo gagne.
Et le Mac Studio M4 Ultra dans tout ça ?
Le 3e candidat sérieux. Mac Studio M4 Ultra 128 GB à ~5500€, 192 GB à ~7500€. Mémoire unifiée massive, bande passante 819 GB/s (3x Spark), Claude Code natif via macOS, Metal Performance Shaders + MLX qui rattrapent CUDA sur LLM inference. Llama 70B Q4 à 18-22 tok/s, le meilleur des trois.
Pourquoi ce n'est pas dans le duel principal :
- Prix : ~2x Strix Halo, ~1.5x Spark. Pas dans le même budget.
- Pas de Windows. Si tu es Apple-friendly, OK. Sinon, friction massive.
- Écosystème Apple fermé. Pas de Steam, pas de jeux, pas de Linux native, pas de bricolage.
Si tu as déjà l'écosystème Apple et que le budget n'est pas un frein, c'est probablement le meilleur choix technique. Pour qui cherche le rapport puissance/prix sub-3500€, on revient sur Spark vs Strix Halo.
Tableau récap final
| Critère | DGX Spark / GX10 | Strix Halo 128 GB |
|---|---|---|
| Prix TTC France | ~3500€ | ~2400€ |
| Architecture CPU | ARM Grace 20 cores | x86 Zen 5 16 cores |
| RAM unifiée | 128 Go LPDDR5X | 128 Go LPDDR5X |
| Bandwidth mémoire | 273 GB/s | 256 GB/s |
| Stack ML | CUDA full ⭐⭐⭐⭐⭐ | ROCm 6.x ⭐⭐⭐ |
| Llama 70B Q4 (tok/s) | ~13 | ~9 |
| SDXL (s/img) | ~3 s | ~7 s |
| Fine-tuning QLoRA | ⭐⭐⭐⭐⭐ | ⭐⭐ (alpha) |
| OS supportés | DGX OS / Ubuntu ARM | Windows + Linux + WSL2 |
| Claude Code | ⚠️ Non officiel ARM | ✅ Natif |
| Cursor / Windsurf | ⚠️ ARM build à risque | ✅ Natif |
| Steam / jeux | ❌ | ⭐⭐⭐ (iGPU correct) |
| Adobe / Office | ❌ | ✅ |
| Docker x86 | ⚠️ (problèmes manifest) | ✅ |
| TDP | ~170 W | ~120 W |
| Use case principal | Workstation IA dédiée | PC tout-terrain + IA |
Conclusion : pour qui je ressemble
Pour 80 % des devs FR qui font de l'IA locale en 2026 — qui veulent garder leur stack productivité (Claude Code, Cursor, Windows quand il faut, Linux quand il faut, écosystème x86 mature) tout en ajoutant un LLM 70B local pour l'autonomie — Strix Halo 128 GB est le bon choix.
Pas parce qu'il gagne sur le papier. Parce qu'il ne te force pas à choisir entre tes outils. Le DGX Spark est une magnifique machine pour le 20 % de chercheurs et créateurs visuels qui peuvent se permettre une workstation IA dédiée et n'utilisent pas Claude Code. Pour les autres, c'est un piège à 1000€ supplémentaires.
Le vrai trade-off en 2026, ce n'est pas "lequel des deux est plus puissant". C'est "lequel des deux écosystèmes peux-tu sacrifier". Et pour la majorité, sacrifier CUDA fait moins mal que sacrifier Claude Code + Windows + tout l'écosystème dev x86.
FAQ
Claude Code marche-t-il sur ARM Linux (DGX Spark) en 2026 ?
Pas officiellement. Anthropic supporte Linux x86_64, macOS et Windows WSL2. ARM Linux pur n'est pas listé. Le package npm peut s'installer mais le support production n'est pas garanti.
Quel mini-PC pour faire tourner Llama 70B en local en 2026 ?
Sub-3500€ : DGX Spark (CUDA + ARM, ~13 tok/s) ou mini-PC AMD Ryzen Strix Halo 128 GB (x86 + ROCm, ~9 tok/s). Au-delà : Mac Studio M4 Ultra (~5500€+, ~18 tok/s).
DGX Spark vaut-il les 1000€ supplémentaires vs Strix Halo ?
Oui pour fine-tuning intensif et Stable Diffusion / Flux pro. Non pour usage LLM inference + dev généraliste. Le delta perf LLM (50 %) ne justifie pas l'écart prix pour la majorité.
Pourquoi pas Mac Studio M4 Ultra à la place ?
Meilleur sur le papier (18-22 tok/s sur Llama 70B), mais ~5500€+ et écosystème Apple fermé. Pas dans le même budget. Pertinent si tu as déjà macOS dans ton workflow.
Combien de tokens/sec sur Llama 70B avec 128 Go RAM unifiée ?
Spark/GX10 ≈ 12-15 tok/s, Strix Halo ≈ 8-10 tok/s, Mac Studio M4 Ultra ≈ 18-22 tok/s. Différence pilotée par bandwidth mémoire × efficacité du stack ML.
Le dilemme Claude Code vs CUDA est-il vraiment réel ?
Oui en mai 2026, c'est le vrai trade-off sub-3500€. Spark = CUDA + ARM (Claude Code à risque). Strix Halo = Claude Code + Windows + ROCm (pas de CUDA). Pas de bonne réponse universelle.
🛠️ Tu prépares ton mini-supercalculateur IA en 2026 ?
Teste ta config actuelle, projette ce que tu pourras faire avec un upgrade, vois quels modèles débloquer selon ton budget.
Mon PC peut-il ? Upgrade Advisor Test ASUS Ascent GX10Sources et lectures complémentaires
- ASUS Ascent GX10 : test du DGX Spark version ASUS (OutilsIA)
- NVIDIA DGX Spark : comparatif et benchmarks (OutilsIA)
- PC IA personnel 2026 : Xeon vs Threadripper vs ASUS GX10
- Mémoire unifiée Mac vs PC pour IA locale
- Claude Code vs Cursor vs OpenClaw : 3 agents code 2026
- Machine de rêve IA locale : config ultime 2026
- Claude Code (Anthropic officiel)
- NVIDIA DGX Spark (officiel)
- AMD Ryzen AI Max+ 395 Strix Halo (officiel)
Article éditorial honnête. OutilsIA.fr publie des comparatifs hardware indépendants. Estimations de performance basées sur benchmarks publics (llama.cpp, HuggingFace LLM Leaderboard) — chiffres réels susceptibles de varier ±25 % selon configuration logicielle exacte. En tant que partenaire Amazon, OutilsIA.fr peut percevoir une commission sur les achats éligibles.