DGX Spark ou ASUS Ascent GX10 vaut-il les 1000€ supplémentaires vs Strix Halo ?

Si tu fais du Stable Diffusion / Flux / fine-tuning intensif : oui, CUDA débloque tout l'écosystème ML moderne (xformers, bitsandbytes, triton). Si tu fais surtout du LLM inference + dev avec Claude Code : non, Strix Halo te donne 80% des perfs LLM, plus Windows + Claude Code natif. Le delta de prix se justifie pour les power users CUDA, pas pour le dev généraliste.

DGX Spark vs Ryzen Strix Halo 128GB : le dilemme Claude Code OU CUDA en 2026

Q: Claude Code marche-t-il sur ARM Linux (DGX Spark) en 2026 ?

Officiellement, Anthropic supporte Claude Code sur Linux x86_64, macOS (Apple Silicon ARM) et Windows via WSL2. Sur ARM Linux pur (cas DGX Spark / DGX OS), Node.js ARM existe et le package npm @anthropic-ai/claude-code peut s'installer techniquement, mais le support officiel n'est pas garanti en mai 2026. Certaines features (computer use, hooks shell complexes, plugins) peuvent dysfonctionner. Le risque pour un dev qui dépend quotidiennement de Claude Code est réel.

Q: Quel mini-PC pour faire tourner Llama 70B en local en 2026 ?

Deux options principales sub-3500€ : (1) NVIDIA DGX Spark (ou ASUS Ascent GX10, son équivalent à ~3000-3500$) : ARM Grace Blackwell GB10, 128 Go RAM unifiée, 273 GB/s bandwidth, CUDA full, OS Ubuntu DGX. Llama 70B Q4 à ~12-15 tok/s. (2) Mini-PC AMD Ryzen AI Max+ Strix Halo 128 Go : x86 Zen 5, iGPU RDNA 3.5, 256 GB/s LPDDR5X bandwidth, ROCm 6.x, Windows + Linux. Llama 70B Q4 à ~8-10 tok/s. Le choix dépend de ton stack logiciel (CUDA-only ou x86 universel).

Q: Pourquoi pas Mac Studio M4 Ultra à la place ?

Le Mac Studio M4 Ultra 192 Go est techniquement le 3e candidat sérieux. Mémoire unifiée massive, bande passante 819 GB/s (3x Spark), Claude Code natif via macOS. Mais : prix qui démarre à ~5500€ (M4 Ultra 128GB) et monte à 7500€+ pour 192GB, écosystème Apple fermé, pas de CUDA, pas de Windows. Pertinent pour qui a déjà l'écosystème Apple et ne veut pas de friction. Pas pour qui cherche le rapport puissance/prix sub-3500€.

Q: Combien de tokens/sec sur Llama 70B avec 128 Go RAM unifiée en 2026 ?

Llama 3.3 70B Q4_K_M (40 Go) sur 128 Go unifié : DGX Spark / GX10 ≈ 12-15 tok/s (CUDA + 273 GB/s + efficacité 65%). Strix Halo Ryzen AI Max+ ≈ 8-10 tok/s (ROCm + 256 GB/s + efficacité 45%). Mac Studio M4 Ultra ≈ 18-22 tok/s (Metal + 819 GB/s + efficacité 55%). RTX 4090 24 Go ≈ 6-8 tok/s avec CPU offload pour les couches qui débordent. RTX 5090 32 Go ≈ 10-13 tok/s, idem offload.

Q: Le dilemme Claude Code vs CUDA est-il vraiment réel ?

Oui, en mai 2026, c'est le vrai trade-off pour qui veut un mini-supercalculateur IA sub-3500€. NVIDIA DGX Spark (et ASUS Ascent GX10) tournent sur ARM Grace, OS Ubuntu DGX optimisé serveur. Pas de Windows, support Claude Code non garanti officiellement. AMD Strix Halo (Ryzen AI Max+) tourne x86 full, supporte Windows 11 + Linux + WSL2 + Claude Code natif, mais pas de CUDA. Tu dois choisir lequel des deux écosystèmes (CUDA ou Claude Code + Windows) tu peux sacrifier.

TL;DR — Tu veux faire tourner Llama 70B en local ET garder Claude Code ? En mai 2026, c'est devenu un casse-tête. Le DGX Spark (et son cousin ASUS Ascent GX10) te donne CUDA + 128 Go unified pour ~3000-3500$, mais c'est de l'ARM avec DGX OS Ubuntu — Claude Code n'y est pas officiellement supporté. Le mini-PC AMD Ryzen AI Max+ "Strix Halo" 128 Go te donne x86 + Windows + Claude Code natif pour ~2200-2500€, mais pas de CUDA (ROCm 6.x à la place). Pour 80 % des devs FR qui me ressemblent, Strix Halo gagne — pas parce qu'il est meilleur sur le papier, mais parce qu'il ne te force pas à renoncer à ton outil principal.

Le dilemme en une phrase

Je veux deux choses simples. Faire tourner Llama 70B chez moi, en local, sans envoyer mon code chez Anthropic ou OpenAI à chaque requête. Et continuer à utiliser Claude Code, parce qu'aucun éditeur IA ne lui arrive à la cheville en 2026 pour les sessions complexes en boucle longue.

Apparemment, en mai 2026, c'est devenu mission impossible sub-3500€. Les deux machines qui te donnent 128 Go de RAM unifiée dans un format desktop silencieux sont :

NVIDIA DGX Spark (vendu en marque blanche par ASUS Ascent GX10, MSI, Acer) — ARM Grace Blackwell, CUDA, mais OS Ubuntu DGX et zéro support Windows.
Mini-PC AMD Ryzen AI Max+ "Strix Halo" (GMK, Beelink, Minisforum) — x86 Zen 5, RDNA 3.5 iGPU, Windows + Linux full, mais ROCm seulement.

L'une te force à renoncer à Claude Code (ou à parier sur un support ARM Linux non officiel). L'autre te force à renoncer à CUDA et son écosystème (xformers, bitsandbytes, triton, ComfyUI optimisé). Pas de bonne réponse universelle. Voici comment je l'ai tranché.

Pourquoi ce dilemme existe en 2026

NVIDIA et AMD se sont mis d'accord sans le faire exprès : la mémoire unifiée 128 Go dans un boîtier desktop silencieux, c'est la nouvelle catégorie. Avant, pour faire tourner Llama 70B en local, il te fallait soit un Mac Studio à 5500€+, soit un dual RTX 3090 bricolé, soit un serveur rack à 8000€+. En mai 2026, deux machines à 2200-3500€ couvrent ce besoin.

Mais elles le font avec des architectures radicalement opposées :

🟢 NVIDIA DGX Spark / ASUS Ascent GX10

Puce : NVIDIA GB10 Grace Blackwell — 20 cores ARM Neoverse V2 + GPU Blackwell intégré (~6144 cores CUDA, support FP4).

RAM : 128 Go LPDDR5X unifiée, ~273 GB/s bandwidth.

OS : DGX OS (basé Ubuntu Server) — pas de Windows possible.

TDP : ~170 W. Format mini-tour silencieuse.

Prix : ~3000-3500$ (≈ 3200-3800€ TTC en France).

Force : CUDA full stack. Tout l'écosystème ML moderne — PyTorch optimisé, xformers, bitsandbytes 4-bit, triton, ComfyUI Flux Dev FP16, Stable Diffusion XL en 1.5s — tourne sans hack.

Faiblesse : ARM. Tu perds tout ton stack x86 habituel. Pas de Steam, pas d'Adobe, pas de Docker x86, et — c'est le sujet de cet article — support Claude Code non officiel.

🔴 AMD Ryzen AI Max+ "Strix Halo" 128 GB

Puce : AMD Ryzen AI Max+ 395 — 16 cores Zen 5 + iGPU RDNA 3.5 (40 Compute Units, ~50 TFLOPS FP16) + NPU XDNA 2 (50 TOPS).

RAM : 128 Go LPDDR5X unifiée, ~256 GB/s bandwidth.

OS : Windows 11 + Linux x86 full + WSL2. Tu choisis ce que tu veux.

TDP : ~120 W. Format mini-PC silencieux (GMK EVO-X2, Beelink GTR9, etc.).

Prix : ~2200-2500€ TTC pour la config 128 GB unified.

Force : x86 universel. Tout marche : Claude Code natif, Cursor, Windsurf, Steam, Adobe, Docker x86, environnement de dev habituel. Et tu as toujours 128 Go de mémoire unifiée pour les LLM.

Faiblesse : pas de CUDA. ROCm 6.x supporte Llama / Ollama / vLLM convenablement, mais l'écosystème Stable Diffusion + fine-tuning + recherche ML reste majoritairement CUDA-first. Tu auras des "ROCm not supported" sur 1 lib sur 4.

Le deal-breaker dont personne ne parle assez : Claude Code sur ARM Linux

C'est l'angle critique que les reviews anglaises ne creusent pas, parce que les benchmarkers américains qui testent le DGX Spark ne dépendent pas de Claude Code au quotidien. Pour un dev FR qui en a fait son outil principal, c'est rédhibitoire.

⚠️ Statut Claude Code sur ARM Linux en mai 2026 :

Support officiel Anthropic : Linux x86_64, macOS (Apple Silicon ARM ✓), Windows via WSL2.
ARM Linux pur (cas DGX OS / Ubuntu ARM) : pas listé officiellement.
Node.js ARM existe et le package npm @anthropic-ai/claude-code peut techniquement s'installer.
Mais : computer use, hooks shell complexes, plugins natifs, sandboxing — chaque feature peut casser sans préavis.
Pas de garantie qu'une mise à jour ne casse pas ton workflow demain matin.

Pour un dev qui passe 4-6h par jour dans Claude Code, parier sur un support ARM Linux non officiel, c'est jouer à la roulette russe avec son outil principal. Si ça casse en plein milieu d'une session de refactor sur 30 fichiers, tu perds une journée. Et tu n'as pas de recours.

Sur Strix Halo, Claude Code tourne nativement sur Windows ou Linux x86. Pas de "peut-être", pas de "ça devrait marcher". C'est testé, supporté, à jour.

CUDA vs ROCm : le faux débat ?

L'autre angle qu'on présente comme un drame absolu : "sans CUDA, tu rates 50 % de l'écosystème ML". C'est vrai en 2024, c'est partiellement vrai en 2026.

État réel de ROCm 6.x sur Strix Halo en mai 2026 :

Workload	ROCm 6.x sur Strix Halo	Verdict
Llama / Qwen / DeepSeek inference (Ollama, vLLM)	✅ Supporté nativement	~70% perf CUDA
LM Studio (GUI)	✅ Build officiel ROCm	Fonctionnel
Stable Diffusion (Automatic1111, ComfyUI)	⚠️ Builds ROCm spécifiques	~60% perf CUDA, friction setup
Flux Dev / SD 3.5 Large	⚠️ Quantizés OK, FP16 limité	Pas idéal
Fine-tuning QLoRA (transformers + bitsandbytes)	❌ bitsandbytes ROCm en alpha	À éviter
Triton kernels custom	❌ Très limité	À éviter
xformers, flash-attention 2	⚠️ Builds existent, instables	Marche au cas par cas

Verdict honnête : si ton usage est LLM inference 80 % du temps + dev avec Claude Code, ROCm te suffit largement. Si tu fais du fine-tuning sérieux ou de la recherche ML, CUDA reste indispensable et le DGX Spark te le donne.

Performance réelle mesurée (estimations 2026)

Voici ce qu'on mesure (ou prédit fiablement, faute d'avoir testé personnellement les deux machines) sur les workloads typiques :

LLM inference

Modèle (Q4)	DGX Spark / GX10	Strix Halo 128 GB	Δ
Llama 3.1 8B	~75 tok/s	~50 tok/s	+50%
Qwen 3 32B	~25 tok/s	~15 tok/s	+67%
Llama 3.3 70B	~12-15 tok/s	~8-10 tok/s	+50%
Llama 4 Maverick (109B MoE)	~10-12 tok/s	~6-8 tok/s	+50%

Spark gagne en moyenne +50 % sur l'inference LLM grâce à CUDA + efficacité Blackwell. Mais Strix Halo reste parfaitement utilisable sur 70B Q4 (10 tok/s = lecture confortable, pas de latence frustrante).

Génération d'image (1024×1024)

Modèle	DGX Spark	Strix Halo (ROCm)	Δ
SDXL	~3 s/img	~7 s/img	+130%
Flux Schnell (4 steps)	~2 s/img	~5 s/img	+150%
Flux Dev FP16 (28 steps)	~10 s/img	~25-30 s/img	+150%

Sur l'image gen, l'écart se creuse fortement. Si tu fais beaucoup de Stable Diffusion / Flux, le Spark devient nettement plus pertinent. Mais pour un usage LLM-first, l'écart est moins déterminant.

Fine-tuning QLoRA

DGX Spark : tu peux fine-tuner jusqu'à ~85B params en QLoRA Q4 avec bitsandbytes + transformers, infrastructure mature. Strix Halo : techniquement possible jusqu'à la même taille, mais bitsandbytes ROCm est en alpha en mai 2026, friction réelle. Pour qui fait du fine-tuning sérieux, Spark gagne sans débat.

5 personas concrets : qui prend quoi ?

1. Le dev solo qui code 6h/jour avec Claude Code

Tu utilises Claude Code en local pour bosser sur tes repos. Tu veux ajouter un LLM 70B local pour les requêtes sensibles, l'autonomie offline, l'indépendance vis-à-vis d'Anthropic. Mais tu refuses de lâcher Claude Code.

→ Strix Halo 128 GB. Sans hésiter. Le delta perf LLM (8 vs 12 tok/s) ne vaut pas le risque de casser ton outil principal.

2. Le chercheur LLM full-time

Tu fais du fine-tuning, tu testes des architectures custom, tu écris du PyTorch optimisé. Tu n'utilises pas (ou peu) Claude Code — tu vis dans Jupyter et tmux.

→ DGX Spark / GX10. CUDA + bitsandbytes + triton + xformers, c'est non négociable pour ton workflow.

3. Le créateur visuel (Stable Diffusion, Flux, ComfyUI à fond)

Tu génères 50-200 images par session. Tu veux Flux Dev FP16 fluide, ComfyUI custom workflows, fine-tune LoRA sur tes propres datasets.

→ DGX Spark. L'écart x2-3 en image gen est trop fort. ROCm sur SD a trop de friction.

4. Le bricoleur tout-terrain (IA + jeux + perso)

Tu veux une seule machine pour Steam, Photoshop, IA locale le soir, dev le week-end. Pas une machine dédiée IA.

→ Strix Halo. Windows + iGPU correct + 128 GB unified. Le Spark serait un gâchis : 95 % du temps ARM Ubuntu ne te servira pas.

5. L'agent autonome 24/7 silencieux (homelab, n8n, RAG perso)

Tu fais tourner un agent IA local en permanence : analyse mails, RAG sur tes docs, automation domestique. Pas de session interactive, pas de dev.

→ Strix Halo. TDP plus bas (120W vs 170W), Linux x86 stable, écosystème Docker x86 complet pour les containers d'agents.

Le piège qu'on te dit pas (côté ARM)

Au-delà de Claude Code, l'écosystème ARM Linux 2026 reste en retard sur x86 pour le dev pro :

Docker : pas tous les containers x86 ont une variante linux/arm64. Tu vas tomber sur des "no manifest for linux/arm64" sur des images de prod.
Outils dev propriétaires : JetBrains IDEs OK mais certains plugins cassent. Postman, TablePlus : OK. VS Code : OK. Mais l'écosystème Microsoft (Teams, Office natif) : limité.
Steam : pas du tout. Si tu joues le soir, oublie.
Adobe Creative Cloud : pas sur ARM Linux (Windows / Mac uniquement).
Drivers / périphériques pro : caméras, scanners, MIDI — moins de support ARM Linux que x86 Linux.

Le DGX Spark est un workstation IA dédiée, pas une machine de tous les jours. Si tu attendais une seule machine pour tout faire, ce n'est pas elle.

Quel rapport perf/euro réel ?

Calcul honnête (mai 2026) en ramenant tout au LLM 70B Q4 (workload référence) :

Machine	Prix TTC (FR)	Llama 70B Q4	€/(tok/s)
Strix Halo 128 GB	~2400€	~9 tok/s	267€/tok/s
DGX Spark / GX10	~3500€	~13 tok/s	269€/tok/s
Mac Studio M4 Ultra 128 GB	~5500€	~18 tok/s	306€/tok/s
RTX 5090 32 GB + 64 GB DDR5	~3000€ (build)	~10 tok/s (offload)	300€/tok/s

Surprise : sur le LLM inference pur, le rapport perf/euro est quasi identique entre Spark et Strix Halo. Les 1100€ supplémentaires du Spark se justifient uniquement si tu valorises CUDA / image gen / fine-tuning. Pour un usage LLM-first, c'est de l'argent gâché.

Mon verdict perso (le moment de la vérité)

"Je vais probablement prendre le Strix Halo 128 GB. Pas parce qu'il est meilleur. Parce qu'il ne me force pas à renoncer à Claude Code, et c'est un trade-off que je ne suis pas prêt à faire en 2026."
— Chris, OutilsIA, mai 2026

Voici les 3 raisons qui pèsent plus, dans mon cas perso, que les +50 % perf LLM du Spark :

Claude Code = mon outil principal. Je perds 5-10h/semaine si je galère pour le faire tourner. Le delta de productivité écrase complètement le delta de tokens/sec.
Llama 70B Q4 à 9 tok/s = utilisable. 30 % plus lent que 13 tok/s, mais pas frustrant. Au-dessus de 7 tok/s, ça lit confortablement. En dessous, c'est pénible.
Windows + Linux x86 + WSL2 = polyvalence. La machine peut me servir aussi à autre chose qu'à l'IA. Le Spark est mono-usage par nature, à 3500€ c'est cher pour ça.

Le seul cas où je prendrais le Spark

Sois honnête sur ton usage. Tu prends le Spark uniquement si :

Tu fais du fine-tuning hebdomadaire sur des modèles 13-30B (bitsandbytes mature en CUDA, pas en ROCm).
Tu utilises Stable Diffusion / Flux à fond (image gen pro, ComfyUI custom workflows, LoRA training).
Tu n'as pas Claude Code dans ton workflow quotidien (tu codes avec Cursor, Continue, Cline, ou pas du tout d'agent IA).
Tu acceptes une machine dédiée IA, pas un PC généraliste.

Si 3 sur 4 cases sont cochées, le Spark vaut son delta de prix. Sinon, Strix Halo gagne.

Et le Mac Studio M4 Ultra dans tout ça ?

Le 3^e candidat sérieux. Mac Studio M4 Ultra 128 GB à ~5500€, 192 GB à ~7500€. Mémoire unifiée massive, bande passante 819 GB/s (3x Spark), Claude Code natif via macOS, Metal Performance Shaders + MLX qui rattrapent CUDA sur LLM inference. Llama 70B Q4 à 18-22 tok/s, le meilleur des trois.

Pourquoi ce n'est pas dans le duel principal :

Prix : ~2x Strix Halo, ~1.5x Spark. Pas dans le même budget.
Pas de Windows. Si tu es Apple-friendly, OK. Sinon, friction massive.
Écosystème Apple fermé. Pas de Steam, pas de jeux, pas de Linux native, pas de bricolage.

Si tu as déjà l'écosystème Apple et que le budget n'est pas un frein, c'est probablement le meilleur choix technique. Pour qui cherche le rapport puissance/prix sub-3500€, on revient sur Spark vs Strix Halo.

Tableau récap final

Critère	DGX Spark / GX10	Strix Halo 128 GB
Prix TTC France	~3500€	~2400€
Architecture CPU	ARM Grace 20 cores	x86 Zen 5 16 cores
RAM unifiée	128 Go LPDDR5X	128 Go LPDDR5X
Bandwidth mémoire	273 GB/s	256 GB/s
Stack ML	CUDA full ⭐⭐⭐⭐⭐	ROCm 6.x ⭐⭐⭐
Llama 70B Q4 (tok/s)	~13	~9
SDXL (s/img)	~3 s	~7 s
Fine-tuning QLoRA	⭐⭐⭐⭐⭐	⭐⭐ (alpha)
OS supportés	DGX OS / Ubuntu ARM	Windows + Linux + WSL2
Claude Code	⚠️ Non officiel ARM	✅ Natif
Cursor / Windsurf	⚠️ ARM build à risque	✅ Natif
Steam / jeux	❌	⭐⭐⭐ (iGPU correct)
Adobe / Office	❌	✅
Docker x86	⚠️ (problèmes manifest)	✅
TDP	~170 W	~120 W
Use case principal	Workstation IA dédiée	PC tout-terrain + IA

Conclusion : pour qui je ressemble

Pour 80 % des devs FR qui font de l'IA locale en 2026 — qui veulent garder leur stack productivité (Claude Code, Cursor, Windows quand il faut, Linux quand il faut, écosystème x86 mature) tout en ajoutant un LLM 70B local pour l'autonomie — Strix Halo 128 GB est le bon choix.

Pas parce qu'il gagne sur le papier. Parce qu'il ne te force pas à choisir entre tes outils. Le DGX Spark est une magnifique machine pour le 20 % de chercheurs et créateurs visuels qui peuvent se permettre une workstation IA dédiée et n'utilisent pas Claude Code. Pour les autres, c'est un piège à 1000€ supplémentaires.

Le vrai trade-off en 2026, ce n'est pas "lequel des deux est plus puissant". C'est "lequel des deux écosystèmes peux-tu sacrifier". Et pour la majorité, sacrifier CUDA fait moins mal que sacrifier Claude Code + Windows + tout l'écosystème dev x86.

FAQ

Claude Code marche-t-il sur ARM Linux (DGX Spark) en 2026 ?

Pas officiellement. Anthropic supporte Linux x86_64, macOS et Windows WSL2. ARM Linux pur n'est pas listé. Le package npm peut s'installer mais le support production n'est pas garanti.

Quel mini-PC pour faire tourner Llama 70B en local en 2026 ?

Sub-3500€ : DGX Spark (CUDA + ARM, ~13 tok/s) ou mini-PC AMD Ryzen Strix Halo 128 GB (x86 + ROCm, ~9 tok/s). Au-delà : Mac Studio M4 Ultra (~5500€+, ~18 tok/s).

DGX Spark vaut-il les 1000€ supplémentaires vs Strix Halo ?

Oui pour fine-tuning intensif et Stable Diffusion / Flux pro. Non pour usage LLM inference + dev généraliste. Le delta perf LLM (50 %) ne justifie pas l'écart prix pour la majorité.

Pourquoi pas Mac Studio M4 Ultra à la place ?

Meilleur sur le papier (18-22 tok/s sur Llama 70B), mais ~5500€+ et écosystème Apple fermé. Pas dans le même budget. Pertinent si tu as déjà macOS dans ton workflow.

Combien de tokens/sec sur Llama 70B avec 128 Go RAM unifiée ?

Spark/GX10 ≈ 12-15 tok/s, Strix Halo ≈ 8-10 tok/s, Mac Studio M4 Ultra ≈ 18-22 tok/s. Différence pilotée par bandwidth mémoire × efficacité du stack ML.

Le dilemme Claude Code vs CUDA est-il vraiment réel ?

Oui en mai 2026, c'est le vrai trade-off sub-3500€. Spark = CUDA + ARM (Claude Code à risque). Strix Halo = Claude Code + Windows + ROCm (pas de CUDA). Pas de bonne réponse universelle.

🛠️ Tu prépares ton mini-supercalculateur IA en 2026 ?

Teste ta config actuelle, projette ce que tu pourras faire avec un upgrade, vois quels modèles débloquer selon ton budget.

Mon PC peut-il ? Upgrade Advisor Test ASUS Ascent GX10

Sources et lectures complémentaires

Article éditorial honnête. OutilsIA.fr publie des comparatifs hardware indépendants. Estimations de performance basées sur benchmarks publics (llama.cpp, HuggingFace LLM Leaderboard) — chiffres réels susceptibles de varier ±25 % selon configuration logicielle exacte. En tant que partenaire Amazon, OutilsIA.fr peut percevoir une commission sur les achats éligibles.

Je veux Claude Code ET un LLM 70B en local.
Pourquoi c'est devenu un dilemme à 3000 € en 2026.