Quel modele IA sur quel hardware ? Le tableau complet 2026
LA question que tout le monde se pose : "Est-ce que mon hardware peut faire tourner ce modele ?" Ce tableau y repond definitivement.
LA question que tout le monde pose
"Est-ce que je peux faire tourner Llama 3.1 70B sur ma RTX 4090 ?" "Qwen 32B tourne sur un Mac Mini M4 ?" "Mon portable avec 16 Go de RAM, ca passe pour Mistral 7B ?"
Cet article repond a toutes ces questions en un seul tableau. Plus de 25 modeles croises avec 14 configurations hardware, avec les niveaux de quantification, la vitesse en tokens/seconde, et un verdict clair pour chaque combinaison.
Comment lire ce tableau
Les niveaux de quantification
- Q4_K_M — 4 bits. Le standard. Bonne qualite, taille reduite de ~60%. C'est ce qu'on utilise dans 90% des cas.
- Q8 — 8 bits. Qualite superieure, mais necessite ~2x plus de memoire que Q4.
- FP16 — 16 bits (precision complete). Qualite maximale, mais necessite 2x la memoire du modele original. Reserve aux configs haut de gamme.
Les indicateurs de vitesse
- Rapide — 20+ tokens/sec. Conversation fluide, temps reel.
- OK — 5-20 tokens/sec. Utilisable, un peu d'attente.
- Lent — 1-5 tokens/sec. Patience requise. Bon pour le batch.
- Non — Ne tient pas en memoire ou inutilisable.
VRAM vs RAM unifiee
Sur les GPU NVIDIA, le modele doit tenir dans la VRAM (memoire du GPU). Sur les Mac Apple Silicon, la memoire est unifiee : CPU et GPU partagent la meme RAM, donc toute la RAM est disponible pour le modele. C'est pourquoi un Mac Mini M4 Pro avec 48 Go peut charger des modeles qu'une RTX 4090 (24 Go VRAM) ne peut pas.
Le Mega Tableau
25+ modeles x 14 configsFaites defiler horizontalement pour voir toutes les configurations. La premiere colonne (modele) reste fixe.
Modeles de langage (LLM)
| Modele (quant.) | RAM requise | RTX 3060 12 Go |
RTX 4060 8 Go |
Mac Mini M4 16 Go |
RTX 4060 Ti 16 Go |
RTX 4070 Ti 12 Go |
Mac Mini M4 Pro 24 Go |
RTX 4090 24 Go |
Mac Mini M4 Pro 48 Go |
2x RTX 3090 48 Go |
Mac Studio Ultra 128 Go |
Mac Studio Ultra 192 Go |
DGX Spark 128 Go |
Laptop 16 Go RAM |
Laptop 32 Go RAM |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Petits modeles (1-3B) — Ultra rapides partout | |||||||||||||||
| Gemma 2 2B Q4 | ~1.5 Go | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | OK | Rapide |
| Qwen 2.5 3B Q4 | ~2 Go | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | OK | Rapide |
| Llama 3.2 3B Q4 | ~2 Go | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | OK | Rapide |
| Phi-3.5 Mini 3.8B Q4 | ~2.5 Go | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | OK | Rapide |
| Modeles moyens (7-9B) — Le sweet spot | |||||||||||||||
| Mistral 7B v0.3 Q4 | ~4.5 Go | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Lent | OK |
| Llama 3.1 8B Q4 | ~5 Go | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Lent | OK |
| Qwen 2.5 7B Q4 | ~4.5 Go | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Lent | OK |
| Gemma 2 9B Q4 | ~5.5 Go | Rapide | OK | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Lent | OK |
| DeepSeek Coder V2 Lite 16B Q4 | ~9 Go | OK | Non | OK | Rapide | OK | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Non | Lent |
| Grands modeles (13-14B) — GPU correct requis | |||||||||||||||
| Qwen 2.5 14B Q4 | ~8.5 Go | OK | Non | OK | Rapide | OK | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Non | Lent |
| Phi-3 Medium 14B Q4 | ~8 Go | OK | Non | OK | Rapide | OK | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Non | Lent |
| Llama 3.1 8B Q8 | ~8.5 Go | OK | Non | OK | Rapide | OK | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Non | Lent |
| Modeles XL (30-34B) — Hardware serieux requis | |||||||||||||||
| Qwen 2.5 32B Q4 | ~20 Go | Non | Non | Non | Non | Non | OK | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Non | Non |
| CodeLlama 34B Q4 | ~20 Go | Non | Non | Non | Non | Non | OK | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Non | Non |
| Yi 34B Q4 | ~20 Go | Non | Non | Non | Non | Non | OK | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Non | Non |
| DeepSeek Coder 33B Q4 | ~20 Go | Non | Non | Non | Non | Non | OK | Rapide | Rapide | Rapide | Rapide | Rapide | Rapide | Non | Non |
| Modeles XXL (70B+) — Le haut du panier | |||||||||||||||
| Llama 3.1 70B Q4 | ~40 Go | Non | Non | Non | Non | Non | Non | Non | OK | OK | Rapide | Rapide | Rapide | Non | Non |
| Qwen 2.5 72B Q4 | ~42 Go | Non | Non | Non | Non | Non | Non | Non | OK | OK | Rapide | Rapide | Rapide | Non | Non |
| Mistral Large 2 123B Q4 | ~70 Go | Non | Non | Non | Non | Non | Non | Non | Non | Non | OK | Rapide | OK | Non | Non |
Modeles de generation d'images
| Modele | VRAM requise | RTX 3060 12 Go |
RTX 4060 8 Go |
Mac Mini M4 16 Go |
RTX 4060 Ti 16 Go |
RTX 4070 Ti 12 Go |
Mac Mini M4 Pro 24 Go |
RTX 4090 24 Go |
Mac Mini M4 Pro 48 Go |
|---|---|---|---|---|---|---|---|---|---|
| Stable Diffusion 1.5 | ~4 Go | Rapide | Rapide | OK | Rapide | Rapide | OK | Rapide | Rapide |
| SDXL | ~8 Go | OK | OK | OK | Rapide | OK | Rapide | Rapide | Rapide |
| Flux Schnell | ~8 Go | OK | OK | OK | Rapide | OK | Rapide | Rapide | Rapide |
| Flux Dev | ~12 Go | OK | Non | OK | Rapide | OK | Rapide | Rapide | Rapide |
Petits modeles (1-3B) : pour qui ?
Les modeles de 1 a 3 milliards de parametres sont les plus accessibles. Ils tournent sur absolument tout, y compris un vieux portable avec 8 Go de RAM. Leur force : la vitesse. Sur un GPU moderne, attendez-vous a 80-150 tokens/seconde, soit plus vite que vous ne pouvez lire.
Cas d'usage ideaux : autocompletion de code en temps reel, chatbot embarque, resume de texte rapide, classification. Si vous avez besoin de reponses instantanees et que la tache ne demande pas un raisonnement complexe, un modele 3B est parfait.
Notre choix : Qwen 2.5 3B offre le meilleur rapport taille/performance dans cette categorie. Phi-3.5 Mini est excellent pour le raisonnement malgre sa petite taille.
Modeles moyens (7-9B) : le sweet spot
C'est LA categorie que la plupart des utilisateurs devraient viser. Les modeles 7-8B offrent un excellent equilibre entre qualite et vitesse. Ils sont capables de conversations nuancees, de generation de code, de traduction, et d'analyse de texte. Avec une RTX 3060 (250 euros d'occasion), vous les faites tourner confortablement a 30-50 tokens/seconde.
La quantification Q4_K_M reduit leur empreinte memoire a environ 4-5 Go, ce qui les rend compatibles avec pratiquement n'importe quel GPU de 8 Go ou plus. Meme un Mac Mini M4 16 Go les fait tourner rapidement grace a la memoire unifiee.
Notre choix : Llama 3.1 8B pour l'usage general, Mistral 7B v0.3 pour le francais, DeepSeek Coder V2 Lite 16B pour le code (architecture MoE, donc rapide malgre ses 16B de parametres).
Grands modeles (13-14B) : quand il en faut plus
Les modeles 13-14B marquent un saut de qualite notable par rapport aux 7B. Ils comprennent mieux les instructions complexes, produisent du texte plus coherent sur de longs passages, et gerent mieux les taches techniques. En quantification Q4, ils demandent environ 8-9 Go de VRAM.
C'est ici que la RTX 3060 12 Go montre sa superiorite face a la RTX 4060 8 Go : ses 12 Go de VRAM permettent de faire tourner un modele 14B en Q4 confortablement, tandis que la RTX 4060 ne peut tout simplement pas les charger.
Notre choix : Qwen 2.5 14B pour la polyvalence et les langues, Phi-3 Medium 14B pour le raisonnement logique et mathematique.
Modeles XL (30-34B) : territoire serieux
Les modeles 30-34B rivalisent avec GPT-3.5 en qualite, et certains comme Qwen 2.5 32B s'en approchent vraiment. En Q4_K_M, ils demandent environ 20 Go de VRAM, ce qui exclut la plupart des GPU grand public a une seule carte.
Vos options : la RTX 4090 (24 Go) les fait tourner avec une marge confortable. Le Mac Mini M4 Pro 24 Go les charge aussi, mais avec peu de marge pour le contexte. Le Mac M4 Pro 48 Go est ideal. Pour les PC, c'est le territoire du 2x GPU.
Notre choix : Qwen 2.5 32B est le roi de cette categorie. C'est probablement le meilleur modele open-source en termes de rapport qualite/taille. Pour le code, DeepSeek Coder 33B reste une reference.
Modeles XXL (70B+) : les poids lourds
Les modeles 70B representent le sommet de ce qui est raisonnablement executable en local. En qualite, Llama 3.1 70B et Qwen 2.5 72B rivalisent avec GPT-4 sur de nombreuses taches. Mais il faut le hardware pour les faire tourner.
En Q4_K_M, un modele 70B necessite environ 40 Go de memoire. Aucun GPU grand public seul ne suffit. Vos options :
- 2x RTX 3090 (48 Go) — La solution la plus abordable (~1400 euros en occasion). Fonctionne bien avec llama.cpp en mode split.
- Mac Mini M4 Pro 48 Go — Charge le modele, vitesse OK (~8-12 tokens/sec). Silencieux et compact.
- Mac Studio M4 Ultra 128/192 Go — La solution la plus confortable. Vitesse rapide, peut meme charger en Q8 ou FP16.
- NVIDIA DGX Spark 128 Go — Le nouveau jouet de NVIDIA. 128 Go de memoire unifiee avec GPU Grace Blackwell.
Quant a Mistral Large 2 (123B), il ne rentre que sur les machines Ultra : Mac Studio 128 Go+ ou DGX Spark. C'est un modele exceptionnel mais reserve a une elite de hardware.
Generation d'images : VRAM et vitesse
La generation d'images a ses propres regles. Contrairement aux LLM qui streament du texte, les modeles d'image ont besoin de la VRAM pendant toute la generation, et la vitesse depend fortement de la puissance brute du GPU (TFLOPS), pas seulement de la VRAM.
Stable Diffusion 1.5
Le classique. ~4 Go VRAM. Tourne sur tout. Des milliers de modeles et LoRA disponibles. Generation en 2-5 secondes sur une RTX 3060.
SDXL
La version HD. ~8 Go VRAM. Images 1024x1024 natives. Meilleure qualite que SD 1.5. 5-15 secondes sur une RTX 3060.
Flux Schnell
La version rapide de Flux. ~8 Go VRAM. 4 etapes de denoising au lieu de 20+. Qualite comparable a SDXL en 2-3x moins de temps.
Flux Dev
La version haute qualite. ~12 Go VRAM. La meilleure qualite d'image open-source en 2026. 20-50 etapes, 10-30 secondes sur une RTX 4090.
Quelle config pour votre budget ?
Budget 300 euros
Entree de gammeLe meilleur point d'entree possible. La RTX 3060 12 Go en occasion est imbattable : ses 12 Go de VRAM ecrasent la RTX 4060 (8 Go) pour l'IA. Vous faites tourner tous les modeles 7-8B a pleine vitesse, et meme les 14B en Q4. Ajoutez Ollama et vous avez un assistant IA local en 5 minutes.
Budget 1000 euros
Sweet spotLe Mac Mini M4 Pro 24 Go est une revelation pour l'IA locale. Sa memoire unifiee permet de charger Qwen 2.5 32B en Q4, un modele qui rivalise avec GPT-3.5 Turbo. Silencieux, compact, basse consommation. Si vous preferez un PC, une RTX 4070 Ti 12 Go (~550 euros) plus le reste de la config est une alternative solide pour les modeles 7-14B.
Budget 2000 euros
Beast modeDeux RTX 3090 d'occasion (~700 euros chaque) vous donnent 48 Go de VRAM totale, suffisant pour faire tourner Llama 70B en Q4 a bonne vitesse. C'est la configuration la plus puissante en rapport prix/performance pour les gros modeles. Alternative : le Mac Mini M4 Pro 48 Go (~2200 euros) est plus elegant mais un peu plus lent sur les 70B.
Budget 5000 euros+
Sans limitesA ce budget, vous pouvez faire tourner n'importe quel modele open-source en local, y compris Llama 70B en FP16 (140 Go) sur un Mac Studio M4 Ultra 192 Go. Le NVIDIA DGX Spark (~4000 euros) avec ses 128 Go de memoire unifiee et son GPU Grace Blackwell est la nouvelle reference. Le Mac Studio M4 Ultra 128 Go (~5000 euros) reste l'option la plus polyvalente.