Accueil Blog Quel modèle IA sur quel hardware
Article de référence

Quel modèle IA sur quel hardware ? Le tableau complet 2026

🛒 Transparence affiliés. Cet article contient des liens affiliés Amazon. En achetant via ces liens, OutilsIA peut percevoir une commission, sans surcoût pour vous. Nos recommandations restent éditorialement indépendantes — aucun constructeur ne sponsorise ce contenu. Voir mentions légales.

LA question que tout le monde se pose : "Est-ce que mon hardware peut faire tourner ce modèle ?" Ce tableau y répond definitivement.

🔬Cet article est base sur nos tests réels (RTX 4080 Super 16Go, 64Go DDR5). Aucun test sponsorise.
Par L équipé OutilsIA avril 2026 18 min de lecture

LA question que tout le monde pose

"Est-ce que je peux faire tourner Llama 3.1 70B sur ma RTX 4090 ?" "Qwen 32B tourne sur un Mac Mini M4 ?" "Mon portable avec 16 Go de RAM, ca passe pour Mistral 7B ?"

Cet article répond a toutes ces questions en un seul tableau. Plus de 25 modèles croises avec 14 configurations hardware, avec les niveaux de quantification, la vitesse en tokens/seconde, et un verdict clair pour chaque combinaison.

Comment lire ce tableau

Les niveaux de quantification

  • Q4_K_M — 4 bits. Le standard. Bonne qualite, taille reduite de ~60%. C'est ce qu'on utilise dans 90% des cas.
  • Q8 — 8 bits. Qualite superieure, mais nécessite ~2x plus de mémoire que Q4.
  • FP16 — 16 bits (precision complete). Qualite maximale, mais nécessite 2x la mémoire du modèle original. Reserve aux configs haut de gamme.

Les indicateurs de vitesse

  • Rapide — 20+ tokens/sec. Conversation fluide, temps réel.
  • OK — 5-20 tokens/sec. Utilisable, un peu d'attente.
  • Lent — 1-5 tokens/sec. Patience requise. Bon pour le batch.
  • Non — Ne tient pas en mémoire ou inutilisable.

VRAM vs RAM unifiee

Sur les GPU NVIDIA, le modèle doit tenir dans la VRAM (mémoire du GPU). Sur les Mac Apple Silicon, la mémoire est unifiee : CPU et GPU partagent la meme RAM, donc toute la RAM est disponible pour le modèle. C'est pourquoi un Mac Mini M4 Pro avec 48 Go peut charger des modèles qu'une RTX 4090 (24 Go VRAM) ne peut pas.

Le Mega Tableau

25+ modèles x 14 configs

Faites defiler horizontalement pour voir toutes les configurations. La premiere colonne (modèle) reste fixe.

Modèles de langage (LLM)

Modèle (quant.) RAM requise RTX 3060
12 Go
RTX 4060
8 Go
Mac Mini M4
16 Go
RTX 4060 Ti
16 Go
RTX 4070 Ti
12 Go
Mac Mini M4 Pro
24 Go
RTX 4090
24 Go
Mac Mini M4 Pro
48 Go
2x RTX 3090
48 Go
Mac Studio Ultra
128 Go
Mac Studio Ultra
192 Go
DGX Spark
128 Go
Laptop
16 Go RAM
Laptop
32 Go RAM
Petits modèles (1-3B) — Ultra rapides partout
Gemma 2 2B Q4 ~1.5 Go Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide OK Rapide
Qwen 2.5 3B Q4 ~2 Go Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide OK Rapide
Llama 3.2 3B Q4 ~2 Go Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide OK Rapide
Phi-3.5 Mini 3.8B Q4 ~2.5 Go Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide OK Rapide
Modèles moyens (7-9B) — Le sweet spot
Mistral 7B v0.3 Q4 ~4.5 Go Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Lent OK
Llama 3.1 8B Q4 ~5 Go Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Lent OK
Qwen 2.5 7B Q4 ~4.5 Go Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Lent OK
Gemma 2 9B Q4 ~5.5 Go Rapide OK Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Lent OK
DeepSeek Coder V2 Lite 16B Q4 ~9 Go OK Non OK Rapide OK Rapide Rapide Rapide Rapide Rapide Rapide Rapide Non Lent
Grands modèles (13-14B) — GPU correct requis
Qwen 2.5 14B Q4 ~8.5 Go OK Non OK Rapide OK Rapide Rapide Rapide Rapide Rapide Rapide Rapide Non Lent
Phi-3 Medium 14B Q4 ~8 Go OK Non OK Rapide OK Rapide Rapide Rapide Rapide Rapide Rapide Rapide Non Lent
Llama 3.1 8B Q8 ~8.5 Go OK Non OK Rapide OK Rapide Rapide Rapide Rapide Rapide Rapide Rapide Non Lent
Modèles XL (30-34B) — Hardware serieux requis
Qwen 2.5 32B Q4 ~20 Go Non Non Non Non Non OK Rapide Rapide Rapide Rapide Rapide Rapide Non Non
CodeLlama 34B Q4 ~20 Go Non Non Non Non Non OK Rapide Rapide Rapide Rapide Rapide Rapide Non Non
Yi 34B Q4 ~20 Go Non Non Non Non Non OK Rapide Rapide Rapide Rapide Rapide Rapide Non Non
DeepSeek Coder 33B Q4 ~20 Go Non Non Non Non Non OK Rapide Rapide Rapide Rapide Rapide Rapide Non Non
Modèles XXL (70B+) — Le haut du panier
Llama 3.1 70B Q4 ~40 Go Non Non Non Non Non Non Non OK OK Rapide Rapide Rapide Non Non
Qwen 2.5 72B Q4 ~42 Go Non Non Non Non Non Non Non OK OK Rapide Rapide Rapide Non Non
Mistral Large 2 123B Q4 ~70 Go Non Non Non Non Non Non Non Non Non OK Rapide OK Non Non

Modèles de generation d'images

Modèle VRAM requise RTX 3060
12 Go
RTX 4060
8 Go
Mac Mini M4
16 Go
RTX 4060 Ti
16 Go
RTX 4070 Ti
12 Go
Mac Mini M4 Pro
24 Go
RTX 4090
24 Go
Mac Mini M4 Pro
48 Go
Stable Diffusion 1.5 ~4 Go Rapide Rapide OK Rapide Rapide OK Rapide Rapide
SDXL ~8 Go OK OK OK Rapide OK Rapide Rapide Rapide
Flux Schnell ~8 Go OK OK OK Rapide OK Rapide Rapide Rapide
Flux Dev ~12 Go OK Non OK Rapide OK Rapide Rapide Rapide

Petits modèles (1-3B) : pour qui ?

Les modèles de 1 a 3 milliards de parametres sont les plus accessibles. Ils tournent sur absolument tout, y compris un vieux portable avec 8 Go de RAM. Leur force : la vitesse. Sur un GPU moderne, attendez-vous a 80-150 tokens/seconde, soit plus vite que vous ne pouvez lire.

Cas d'usage ideaux : autocompletion de code en temps réel, chatbot embarque, resume de texte rapide, classification. Si vous avez besoin de reponses instantanees et que la tache ne demande pas un raisonnement complexe, un modèle 3B est parfait.

Notre choix : Qwen 2.5 3B offre le meilleur rapport taille/performance dans cette catégorie. Phi-3.5 Mini est excellent pour le raisonnement malgre sa petite taille.

Modèles moyens (7-9B) : le sweet spot

C'est LA catégorie que la plupart des utilisateurs devraient viser. Les modèles 7-8B offrent un excellent équilibre entre qualite et vitesse. Ils sont capables de conversations nuancees, de generation de code, de traduction, et d'analyse de texte. Avec une RTX 3060 (250 euros d'occasion), vous les faites tourner confortablement a 30-50 tokens/seconde.

La quantification Q4_K_M reduit leur empreinte mémoire a environ 4-5 Go, ce qui les rend compatibles avec pratiquement n'importe quel GPU de 8 Go ou plus. Meme un Mac Mini M4 16 Go les fait tourner rapidement grâce à la mémoire unifiee.

Notre choix : Llama 3.1 8B pour l'usage général, Mistral 7B v0.3 pour le francais, DeepSeek Coder V2 Lite 16B pour le code (architecture MoE, donc rapide malgre ses 16B de parametres).

Grands modèles (13-14B) : quand il en faut plus

Les modèles 13-14B marquent un saut de qualite notable par rapport aux 7B. Ils comprennent mieux les instructions complexes, produisent du texte plus coherent sur de longs passages, et gerent mieux les taches techniques. En quantification Q4, ils demandent environ 8-9 Go de VRAM.

C'est ici que la RTX 3060 12 Go montre sa superiorite face a la RTX 4060 8 Go : ses 12 Go de VRAM permettent de faire tourner un modèle 14B en Q4 confortablement, tandis que la RTX 4060 ne peut tout simplement pas les charger.

Notre choix : Qwen 2.5 14B pour la polyvalence et les langues, Phi-3 Medium 14B pour le raisonnement logique et mathematique.

Modèles XL (30-34B) : territoire serieux

Les modèles 30-34B rivalisent avec GPT-3.5 en qualite, et certains comme Qwen 2.5 32B s'en approchent vraiment. En Q4_K_M, ils demandent environ 20 Go de VRAM, ce qui exclut la plupart des GPU grand public a une seule carte.

Vos options : la RTX 4090 (24 Go) les fait tourner avec une marge confortable. Le Mac Mini M4 Pro 24 Go les charge aussi, mais avec peu de marge pour le contexte. Le Mac M4 Pro 48 Go est ideal. Pour les PC, c'est le territoire du 2x GPU.

Notre choix : Qwen 2.5 32B est le roi de cette catégorie. C'est probablement le meilleur modèle open-source en termes de rapport qualite/taille. Pour le code, DeepSeek Coder 33B reste une référence.

Modèles XXL (70B+) : les poids lourds

Les modèles 70B representent le sommet de ce qui est raisonnablement executable en local. En qualite, Llama 3.1 70B et Qwen 2.5 72B rivalisent avec GPT-4 sur de nombreuses taches. Mais il faut le hardware pour les faire tourner.

En Q4_K_M, un modèle 70B nécessite environ 40 Go de mémoire. Aucun GPU grand public seul ne suffit. Vos options :

  • 2x RTX 3090 (48 Go) — La solution la plus abordable (~1400 euros en occasion). Fonctionne bien avec llama.cpp en mode split.
  • Mac Mini M4 Pro 48 Go — Charge le modèle, vitesse OK (~8-12 tokens/sec). Silencieux et compact.
  • Mac Studio M4 Ultra 128/192 Go — La solution la plus confortable. Vitesse rapide, peut meme charger en Q8 ou FP16.
  • NVIDIA DGX Spark 128 Go — Le nouveau jouet de NVIDIA. 128 Go de mémoire unifiee avec GPU Grace Blackwell.

Quant a Mistral Large 2 (123B), il ne rentre que sur les machines Ultra : Mac Studio 128 Go+ ou DGX Spark. C'est un modèle exceptionnel mais reserve a une elite de hardware.

Generation d'images : VRAM et vitesse

La generation d'images a ses propres regles. Contrairement aux LLM qui streament du texte, les modèles d'image ont besoin de la VRAM pendant toute la generation, et la vitesse depend fortement de la puissance brute du GPU (TFLOPS), pas seulement de la VRAM.

Stable Diffusion 1.5

Le classique. ~4 Go VRAM. Tourne sur tout. Des milliers de modèles et LoRA disponibles. Generation en 2-5 secondes sur une RTX 3060.

SDXL

La version HD. ~8 Go VRAM. Images 1024x1024 natives. Meilleure qualite que SD 1.5. 5-15 secondes sur une RTX 3060.

Flux Schnell

La version rapide de Flux. ~8 Go VRAM. 4 etapes de denoising au lieu de 20+. Qualite comparable a SDXL en 2-3x moins de temps.

Flux Dev

La version haute qualite. ~12 Go VRAM. La meilleure qualite d'image open-source en 2026. 20-50 etapes, 10-30 secondes sur une RTX 4090.

Quelle config pour votre budget ?

Budget 300 euros

Entree de gamme
Hardware
RTX 3060 12 Go (occasion)
Modèle recommande
Llama 3.1 8B Q4
Performance
30-50 tokens/sec

Le meilleur point d'entree possible. La RTX 3060 12 Go en occasion est imbattable : ses 12 Go de VRAM ecrasent la RTX 4060 (8 Go) pour l'IA. Vous faites tourner tous les modèles 7-8B a pleine vitesse, et meme les 14B en Q4. Ajoutez Ollama et vous avez un assistant IA local en 5 minutes.

Budget 1000 euros

Sweet spot
Hardware
Mac Mini M4 Pro 24 Go
Modèle recommande
Qwen 2.5 32B Q4
Performance
10-15 tokens/sec

Le Mac Mini M4 Pro 24 Go est une revelation pour l'IA locale. Sa mémoire unifiee permet de charger Qwen 2.5 32B en Q4, un modèle qui rivalise avec GPT-3.5 Turbo. Silencieux, compact, basse consommation. Si vous preferez un PC, une RTX 4070 Ti 12 Go (~550 euros) plus le reste de la config est une alternative solide pour les modèles 7-14B.

Budget 2000 euros

Beast mode
Hardware
2x RTX 3090 48 Go total
Modèle recommande
Llama 3.1 70B Q4
Performance
15-25 tokens/sec

Deux RTX 3090 d'occasion (~700 euros chaque) vous donnent 48 Go de VRAM totale, suffisant pour faire tourner Llama 70B en Q4 a bonne vitesse. C'est la configuration la plus puissante en rapport prix/performance pour les gros modèles. Alternative : le Mac Mini M4 Pro 48 Go (~2200 euros) est plus elegant mais un peu plus lent sur les 70B.

Budget 5000 euros+

Sans limites
Hardware
Mac Studio M4 Ultra 128 Go / DGX Spark
Modèle recommande
Tout. Meme Mistral Large 123B.
Performance
20-40 tokens/sec sur 70B

A ce budget, vous pouvez faire tourner n'importe quel modèle open-source en local, y compris Llama 70B en FP16 (140 Go) sur un Mac Studio M4 Ultra 192 Go. Le NVIDIA DGX Spark (~4000 euros) avec ses 128 Go de mémoire unifiee et son GPU Grace Blackwell est la nouvelle référence. Le Mac Studio M4 Ultra 128 Go (~5000 euros) reste l'option la plus polyvalente.

🛒 Voir les prix sur Amazon

Liens affiliés. En achetant via ces liens, vous soutenez OutilsIA sans surcoût.

Questions frequentes

En quantification Q4_K_M (le standard), Llama 3.1 70B nécessité environ 40 Go de VRAM/mémoire. Cela exclut tous les GPU grand public a une seule carte. Vos options : 2x RTX 3090 (48 Go total, ~1400 euros d'occasion), Mac Mini M4 Pro 48 Go (~2200 euros), Mac Studio M4 Ultra 128 Go (~5000 euros), ou le NVIDIA DGX Spark 128 Go (~4000 euros). Sur le Mac 48 Go, ca passe juste avec peu de marge pour le contexte. Les configs 128 Go+ sont plus confortables et permettent même le Q8 pour une meilleure qualité.
La quantification reduit la precision des poids du modèle pour economiser de la mémoire. Q4_K_M (4 bits) est le standard : il reduit la taille d'environ 60% avec une perte de qualite minime (souvent imperceptible). Q8 (8 bits) offre une meilleure qualite mais nécessite environ 75% de la taille originale. FP16 (16 bits) est la precision complete, sans perte, mais nécessite 2x la mémoire. Pour 90% des usages, Q4_K_M est le meilleur compromis. Si vous avez la mémoire, Q8 est un cran au-dessus. FP16 est reserve aux machines haut de gamme.
Ca depend du modèle. Pour les petits modèles (7-14B), la RTX 4090 est nettement plus rapide grâce à sa bande passante mémoire superieure (~1 To/s vs ~400 Go/s sur M4 Ultra). Mais pour les gros modèles (32B-70B), le Mac avec sa mémoire unifiee de 48-192 Go peut charger des modèles qui ne tiendraient tout simplement pas dans les 24 Go de VRAM d'une seule RTX 4090. Le Mac est aussi beaucoup plus silencieux (pas de ventilateur bruyant), consomme moins d'energie (75W vs 450W+), et est plus compact. En resume : RTX 4090 pour la vitesse pure sur les petits modèles, Mac pour la polyvalence et les gros modèles.

Articles liés

Meilleur OS pour IA locale 2026 : Linux vs Windows vs macOS
2x RTX 3090 (48 Go VRAM) : quels modèles IA faire tourner en local ?
Mac Mini M4 pour IA locale 2026 : quel modèle choisir ?
Quel matériel pour egaler Claude Code en local ? Guide hardware 2026
AutoResearch GPU : benchmarker automatiquement vos configs d'inf&ea...
Meilleure IA gratuite 2026 : top 10 comparatif complet
🚀 Bientôt Lancement prévu été 2026

PC IA Builder Premium

Configurateur complet : 3 builds alternatifs (silencieux / puissance / value), projection IA workloads détaillée, analyse bottleneck, PDF shopping list. Sois prévenu·e du lancement.