Quel modèle IA sur quel hardware ? Le tableau complet 2026
LA question que tout le monde se pose : "Est-ce que mon hardware peut faire tourner ce modèle ?" Ce tableau y répond definitivement.
LA question que tout le monde pose
"Est-ce que je peux faire tourner Llama 3.1 70B sur ma RTX 4090 ?" "Qwen 32B tourne sur un Mac Mini M4 ?" "Mon portable avec 16 Go de RAM, ca passe pour Mistral 7B ?"
Cet article répond a toutes ces questions en un seul tableau. Plus de 25 modèles croises avec 14 configurations hardware, avec les niveaux de quantification, la vitesse en tokens/seconde, et un verdict clair pour chaque combinaison.
Comment lire ce tableau
Les niveaux de quantification
- Q4_K_M — 4 bits. Le standard. Bonne qualite, taille reduite de ~60%. C'est ce qu'on utilise dans 90% des cas.
- Q8 — 8 bits. Qualite superieure, mais nécessite ~2x plus de mémoire que Q4.
- FP16 — 16 bits (precision complete). Qualite maximale, mais nécessite 2x la mémoire du modèle original. Reserve aux configs haut de gamme.
Les indicateurs de vitesse
- Rapide — 20+ tokens/sec. Conversation fluide, temps réel.
- OK — 5-20 tokens/sec. Utilisable, un peu d'attente.
- Lent — 1-5 tokens/sec. Patience requise. Bon pour le batch.
- Non — Ne tient pas en mémoire ou inutilisable.
VRAM vs RAM unifiee
Sur les GPU NVIDIA, le modèle doit tenir dans la VRAM (mémoire du GPU). Sur les Mac Apple Silicon, la mémoire est unifiee : CPU et GPU partagent la meme RAM, donc toute la RAM est disponible pour le modèle. C'est pourquoi un Mac Mini M4 Pro avec 48 Go peut charger des modèles qu'une RTX 4090 (24 Go VRAM) ne peut pas.
Le Mega Tableau
25+ modèles x 14 configsFaites defiler horizontalement pour voir toutes les configurations. La premiere colonne (modèle) reste fixe.
Modèles de langage (LLM)
| Modèle (quant.) | RAM requise | RTX 3060 12 Go |
RTX 4060 8 Go |
Mac Mini M4 16 Go |
RTX 4060 Ti 16 Go |
RTX 4070 Ti 12 Go |
Mac Mini M4 Pro 24 Go |
RTX 4090 24 Go |
Mac Mini M4 Pro 48 Go |
2x RTX 3090 48 Go |
Mac Studio Ultra 128 Go |
Mac Studio Ultra 192 Go |
DGX Spark 128 Go |
Laptop 16 Go RAM |
Laptop 32 Go RAM |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Petits modèles (1-3B) — Ultra rapides partout | |||||||||||||||
| Gemma 2 2B Q4 | ~1.5 Go | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | OK | Rapide |
| Qwen 2.5 3B Q4 | ~2 Go | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | OK | Rapide |
| Llama 3.2 3B Q4 | ~2 Go | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | OK | Rapide |
| Phi-3.5 Mini 3.8B Q4 | ~2.5 Go | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | OK | Rapide |
| Modèles moyens (7-9B) — Le sweet spot | |||||||||||||||
| Mistral 7B v0.3 Q4 | ~4.5 Go | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Lent | OK |
| Llama 3.1 8B Q4 | ~5 Go | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Lent | OK |
| Qwen 2.5 7B Q4 | ~4.5 Go | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Lent | OK |
| Gemma 2 9B Q4 | ~5.5 Go | Rapide | OK | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Lent | OK |
| DeepSeek Coder V2 Lite 16B Q4 | ~9 Go | OK | Non | OK | Rapide | OK | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Non | Lent |
| Grands modèles (13-14B) — GPU correct requis | |||||||||||||||
| Qwen 2.5 14B Q4 | ~8.5 Go | OK | Non | OK | Rapide | OK | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Non | Lent |
| Phi-3 Medium 14B Q4 | ~8 Go | OK | Non | OK | Rapide | OK | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Non | Lent |
| Llama 3.1 8B Q8 | ~8.5 Go | OK | Non | OK | Rapide | OK | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Non | Lent |
| Modèles XL (30-34B) — Hardware serieux requis | |||||||||||||||
| Qwen 2.5 32B Q4 | ~20 Go | Non | Non | Non | Non | Non | OK | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Non | Non |
| CodeLlama 34B Q4 | ~20 Go | Non | Non | Non | Non | Non | OK | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Non | Non |
| Yi 34B Q4 | ~20 Go | Non | Non | Non | Non | Non | OK | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Non | Non |
| DeepSeek Coder 33B Q4 | ~20 Go | Non | Non | Non | Non | Non | OK | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Non | Non |
| Modèles XXL (70B+) — Le haut du panier | |||||||||||||||
| Llama 3.1 70B Q4 | ~40 Go | Non | Non | Non | Non | Non | Non | Non | OK | OK | Rapide | Rapide | Rapide | Non | Non |
| Qwen 2.5 72B Q4 | ~42 Go | Non | Non | Non | Non | Non | Non | Non | OK | OK | Rapide | Rapide | Rapide | Non | Non |
| Mistral Large 2 123B Q4 | ~70 Go | Non | Non | Non | Non | Non | Non | Non | Non | Non | OK | Rapide | OK | Non | Non |
Modèles de generation d'images
| Modèle | VRAM requise | RTX 3060 12 Go |
RTX 4060 8 Go |
Mac Mini M4 16 Go |
RTX 4060 Ti 16 Go |
RTX 4070 Ti 12 Go |
Mac Mini M4 Pro 24 Go |
RTX 4090 24 Go |
Mac Mini M4 Pro 48 Go |
|---|---|---|---|---|---|---|---|---|---|
| Stable Diffusion 1.5 | ~4 Go | Rapide | Rapide | OK | Rapide | Rapide | OK | Rapide | Rapide |
| SDXL | ~8 Go | OK | OK | OK | Rapide | OK | Rapide | Rapide | Rapide |
| Flux Schnell | ~8 Go | OK | OK | OK | Rapide | OK | Rapide | Rapide | Rapide |
| Flux Dev | ~12 Go | OK | Non | OK | Rapide | OK | Rapide | Rapide | Rapide |
Petits modèles (1-3B) : pour qui ?
Les modèles de 1 a 3 milliards de parametres sont les plus accessibles. Ils tournent sur absolument tout, y compris un vieux portable avec 8 Go de RAM. Leur force : la vitesse. Sur un GPU moderne, attendez-vous a 80-150 tokens/seconde, soit plus vite que vous ne pouvez lire.
Cas d'usage ideaux : autocompletion de code en temps réel, chatbot embarque, resume de texte rapide, classification. Si vous avez besoin de reponses instantanees et que la tache ne demande pas un raisonnement complexe, un modèle 3B est parfait.
Notre choix : Qwen 2.5 3B offre le meilleur rapport taille/performance dans cette catégorie. Phi-3.5 Mini est excellent pour le raisonnement malgre sa petite taille.
Modèles moyens (7-9B) : le sweet spot
C'est LA catégorie que la plupart des utilisateurs devraient viser. Les modèles 7-8B offrent un excellent équilibre entre qualite et vitesse. Ils sont capables de conversations nuancees, de generation de code, de traduction, et d'analyse de texte. Avec une RTX 3060 (250 euros d'occasion), vous les faites tourner confortablement a 30-50 tokens/seconde.
La quantification Q4_K_M reduit leur empreinte mémoire a environ 4-5 Go, ce qui les rend compatibles avec pratiquement n'importe quel GPU de 8 Go ou plus. Meme un Mac Mini M4 16 Go les fait tourner rapidement grâce à la mémoire unifiee.
Notre choix : Llama 3.1 8B pour l'usage général, Mistral 7B v0.3 pour le francais, DeepSeek Coder V2 Lite 16B pour le code (architecture MoE, donc rapide malgre ses 16B de parametres).
Grands modèles (13-14B) : quand il en faut plus
Les modèles 13-14B marquent un saut de qualite notable par rapport aux 7B. Ils comprennent mieux les instructions complexes, produisent du texte plus coherent sur de longs passages, et gerent mieux les taches techniques. En quantification Q4, ils demandent environ 8-9 Go de VRAM.
C'est ici que la RTX 3060 12 Go montre sa superiorite face a la RTX 4060 8 Go : ses 12 Go de VRAM permettent de faire tourner un modèle 14B en Q4 confortablement, tandis que la RTX 4060 ne peut tout simplement pas les charger.
Notre choix : Qwen 2.5 14B pour la polyvalence et les langues, Phi-3 Medium 14B pour le raisonnement logique et mathematique.
Modèles XL (30-34B) : territoire serieux
Les modèles 30-34B rivalisent avec GPT-3.5 en qualite, et certains comme Qwen 2.5 32B s'en approchent vraiment. En Q4_K_M, ils demandent environ 20 Go de VRAM, ce qui exclut la plupart des GPU grand public a une seule carte.
Vos options : la RTX 4090 (24 Go) les fait tourner avec une marge confortable. Le Mac Mini M4 Pro 24 Go les charge aussi, mais avec peu de marge pour le contexte. Le Mac M4 Pro 48 Go est ideal. Pour les PC, c'est le territoire du 2x GPU.
Notre choix : Qwen 2.5 32B est le roi de cette catégorie. C'est probablement le meilleur modèle open-source en termes de rapport qualite/taille. Pour le code, DeepSeek Coder 33B reste une référence.
Modèles XXL (70B+) : les poids lourds
Les modèles 70B representent le sommet de ce qui est raisonnablement executable en local. En qualite, Llama 3.1 70B et Qwen 2.5 72B rivalisent avec GPT-4 sur de nombreuses taches. Mais il faut le hardware pour les faire tourner.
En Q4_K_M, un modèle 70B nécessite environ 40 Go de mémoire. Aucun GPU grand public seul ne suffit. Vos options :
- 2x RTX 3090 (48 Go) — La solution la plus abordable (~1400 euros en occasion). Fonctionne bien avec llama.cpp en mode split.
- Mac Mini M4 Pro 48 Go — Charge le modèle, vitesse OK (~8-12 tokens/sec). Silencieux et compact.
- Mac Studio M4 Ultra 128/192 Go — La solution la plus confortable. Vitesse rapide, peut meme charger en Q8 ou FP16.
- NVIDIA DGX Spark 128 Go — Le nouveau jouet de NVIDIA. 128 Go de mémoire unifiee avec GPU Grace Blackwell.
Quant a Mistral Large 2 (123B), il ne rentre que sur les machines Ultra : Mac Studio 128 Go+ ou DGX Spark. C'est un modèle exceptionnel mais reserve a une elite de hardware.
Generation d'images : VRAM et vitesse
La generation d'images a ses propres regles. Contrairement aux LLM qui streament du texte, les modèles d'image ont besoin de la VRAM pendant toute la generation, et la vitesse depend fortement de la puissance brute du GPU (TFLOPS), pas seulement de la VRAM.
Stable Diffusion 1.5
Le classique. ~4 Go VRAM. Tourne sur tout. Des milliers de modèles et LoRA disponibles. Generation en 2-5 secondes sur une RTX 3060.
SDXL
La version HD. ~8 Go VRAM. Images 1024x1024 natives. Meilleure qualite que SD 1.5. 5-15 secondes sur une RTX 3060.
Flux Schnell
La version rapide de Flux. ~8 Go VRAM. 4 etapes de denoising au lieu de 20+. Qualite comparable a SDXL en 2-3x moins de temps.
Flux Dev
La version haute qualite. ~12 Go VRAM. La meilleure qualite d'image open-source en 2026. 20-50 etapes, 10-30 secondes sur une RTX 4090.
Quelle config pour votre budget ?
Budget 300 euros
Entree de gammeLe meilleur point d'entree possible. La RTX 3060 12 Go en occasion est imbattable : ses 12 Go de VRAM ecrasent la RTX 4060 (8 Go) pour l'IA. Vous faites tourner tous les modèles 7-8B a pleine vitesse, et meme les 14B en Q4. Ajoutez Ollama et vous avez un assistant IA local en 5 minutes.
Budget 1000 euros
Sweet spotLe Mac Mini M4 Pro 24 Go est une revelation pour l'IA locale. Sa mémoire unifiee permet de charger Qwen 2.5 32B en Q4, un modèle qui rivalise avec GPT-3.5 Turbo. Silencieux, compact, basse consommation. Si vous preferez un PC, une RTX 4070 Ti 12 Go (~550 euros) plus le reste de la config est une alternative solide pour les modèles 7-14B.
Budget 2000 euros
Beast modeDeux RTX 3090 d'occasion (~700 euros chaque) vous donnent 48 Go de VRAM totale, suffisant pour faire tourner Llama 70B en Q4 a bonne vitesse. C'est la configuration la plus puissante en rapport prix/performance pour les gros modèles. Alternative : le Mac Mini M4 Pro 48 Go (~2200 euros) est plus elegant mais un peu plus lent sur les 70B.
Budget 5000 euros+
Sans limitesA ce budget, vous pouvez faire tourner n'importe quel modèle open-source en local, y compris Llama 70B en FP16 (140 Go) sur un Mac Studio M4 Ultra 192 Go. Le NVIDIA DGX Spark (~4000 euros) avec ses 128 Go de mémoire unifiee et son GPU Grace Blackwell est la nouvelle référence. Le Mac Studio M4 Ultra 128 Go (~5000 euros) reste l'option la plus polyvalente.
Liens affiliés. En achetant via ces liens, vous soutenez OutilsIA sans surcoût.