Accueil Blog Quel modele IA sur quel hardware
Article de reference

Quel modele IA sur quel hardware ? Le tableau complet 2026

LA question que tout le monde se pose : "Est-ce que mon hardware peut faire tourner ce modele ?" Ce tableau y repond definitivement.

Par L equipe OutilsIA avril 2026 18 min de lecture

LA question que tout le monde pose

"Est-ce que je peux faire tourner Llama 3.1 70B sur ma RTX 4090 ?" "Qwen 32B tourne sur un Mac Mini M4 ?" "Mon portable avec 16 Go de RAM, ca passe pour Mistral 7B ?"

Cet article repond a toutes ces questions en un seul tableau. Plus de 25 modeles croises avec 14 configurations hardware, avec les niveaux de quantification, la vitesse en tokens/seconde, et un verdict clair pour chaque combinaison.

Comment lire ce tableau

Les niveaux de quantification

  • Q4_K_M — 4 bits. Le standard. Bonne qualite, taille reduite de ~60%. C'est ce qu'on utilise dans 90% des cas.
  • Q8 — 8 bits. Qualite superieure, mais necessite ~2x plus de memoire que Q4.
  • FP16 — 16 bits (precision complete). Qualite maximale, mais necessite 2x la memoire du modele original. Reserve aux configs haut de gamme.

Les indicateurs de vitesse

  • Rapide — 20+ tokens/sec. Conversation fluide, temps reel.
  • OK — 5-20 tokens/sec. Utilisable, un peu d'attente.
  • Lent — 1-5 tokens/sec. Patience requise. Bon pour le batch.
  • Non — Ne tient pas en memoire ou inutilisable.

VRAM vs RAM unifiee

Sur les GPU NVIDIA, le modele doit tenir dans la VRAM (memoire du GPU). Sur les Mac Apple Silicon, la memoire est unifiee : CPU et GPU partagent la meme RAM, donc toute la RAM est disponible pour le modele. C'est pourquoi un Mac Mini M4 Pro avec 48 Go peut charger des modeles qu'une RTX 4090 (24 Go VRAM) ne peut pas.

Le Mega Tableau

25+ modeles x 14 configs

Faites defiler horizontalement pour voir toutes les configurations. La premiere colonne (modele) reste fixe.

Modeles de langage (LLM)

Modele (quant.) RAM requise RTX 3060
12 Go
RTX 4060
8 Go
Mac Mini M4
16 Go
RTX 4060 Ti
16 Go
RTX 4070 Ti
12 Go
Mac Mini M4 Pro
24 Go
RTX 4090
24 Go
Mac Mini M4 Pro
48 Go
2x RTX 3090
48 Go
Mac Studio Ultra
128 Go
Mac Studio Ultra
192 Go
DGX Spark
128 Go
Laptop
16 Go RAM
Laptop
32 Go RAM
Petits modeles (1-3B) — Ultra rapides partout
Gemma 2 2B Q4 ~1.5 Go Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide OK Rapide
Qwen 2.5 3B Q4 ~2 Go Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide OK Rapide
Llama 3.2 3B Q4 ~2 Go Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide OK Rapide
Phi-3.5 Mini 3.8B Q4 ~2.5 Go Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide OK Rapide
Modeles moyens (7-9B) — Le sweet spot
Mistral 7B v0.3 Q4 ~4.5 Go Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Lent OK
Llama 3.1 8B Q4 ~5 Go Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Lent OK
Qwen 2.5 7B Q4 ~4.5 Go Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Lent OK
Gemma 2 9B Q4 ~5.5 Go Rapide OK Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Rapide Lent OK
DeepSeek Coder V2 Lite 16B Q4 ~9 Go OK Non OK Rapide OK Rapide Rapide Rapide Rapide Rapide Rapide Rapide Non Lent
Grands modeles (13-14B) — GPU correct requis
Qwen 2.5 14B Q4 ~8.5 Go OK Non OK Rapide OK Rapide Rapide Rapide Rapide Rapide Rapide Rapide Non Lent
Phi-3 Medium 14B Q4 ~8 Go OK Non OK Rapide OK Rapide Rapide Rapide Rapide Rapide Rapide Rapide Non Lent
Llama 3.1 8B Q8 ~8.5 Go OK Non OK Rapide OK Rapide Rapide Rapide Rapide Rapide Rapide Rapide Non Lent
Modeles XL (30-34B) — Hardware serieux requis
Qwen 2.5 32B Q4 ~20 Go Non Non Non Non Non OK Rapide Rapide Rapide Rapide Rapide Rapide Non Non
CodeLlama 34B Q4 ~20 Go Non Non Non Non Non OK Rapide Rapide Rapide Rapide Rapide Rapide Non Non
Yi 34B Q4 ~20 Go Non Non Non Non Non OK Rapide Rapide Rapide Rapide Rapide Rapide Non Non
DeepSeek Coder 33B Q4 ~20 Go Non Non Non Non Non OK Rapide Rapide Rapide Rapide Rapide Rapide Non Non
Modeles XXL (70B+) — Le haut du panier
Llama 3.1 70B Q4 ~40 Go Non Non Non Non Non Non Non OK OK Rapide Rapide Rapide Non Non
Qwen 2.5 72B Q4 ~42 Go Non Non Non Non Non Non Non OK OK Rapide Rapide Rapide Non Non
Mistral Large 2 123B Q4 ~70 Go Non Non Non Non Non Non Non Non Non OK Rapide OK Non Non

Modeles de generation d'images

Modele VRAM requise RTX 3060
12 Go
RTX 4060
8 Go
Mac Mini M4
16 Go
RTX 4060 Ti
16 Go
RTX 4070 Ti
12 Go
Mac Mini M4 Pro
24 Go
RTX 4090
24 Go
Mac Mini M4 Pro
48 Go
Stable Diffusion 1.5 ~4 Go Rapide Rapide OK Rapide Rapide OK Rapide Rapide
SDXL ~8 Go OK OK OK Rapide OK Rapide Rapide Rapide
Flux Schnell ~8 Go OK OK OK Rapide OK Rapide Rapide Rapide
Flux Dev ~12 Go OK Non OK Rapide OK Rapide Rapide Rapide

Petits modeles (1-3B) : pour qui ?

Les modeles de 1 a 3 milliards de parametres sont les plus accessibles. Ils tournent sur absolument tout, y compris un vieux portable avec 8 Go de RAM. Leur force : la vitesse. Sur un GPU moderne, attendez-vous a 80-150 tokens/seconde, soit plus vite que vous ne pouvez lire.

Cas d'usage ideaux : autocompletion de code en temps reel, chatbot embarque, resume de texte rapide, classification. Si vous avez besoin de reponses instantanees et que la tache ne demande pas un raisonnement complexe, un modele 3B est parfait.

Notre choix : Qwen 2.5 3B offre le meilleur rapport taille/performance dans cette categorie. Phi-3.5 Mini est excellent pour le raisonnement malgre sa petite taille.

Modeles moyens (7-9B) : le sweet spot

C'est LA categorie que la plupart des utilisateurs devraient viser. Les modeles 7-8B offrent un excellent equilibre entre qualite et vitesse. Ils sont capables de conversations nuancees, de generation de code, de traduction, et d'analyse de texte. Avec une RTX 3060 (250 euros d'occasion), vous les faites tourner confortablement a 30-50 tokens/seconde.

La quantification Q4_K_M reduit leur empreinte memoire a environ 4-5 Go, ce qui les rend compatibles avec pratiquement n'importe quel GPU de 8 Go ou plus. Meme un Mac Mini M4 16 Go les fait tourner rapidement grace a la memoire unifiee.

Notre choix : Llama 3.1 8B pour l'usage general, Mistral 7B v0.3 pour le francais, DeepSeek Coder V2 Lite 16B pour le code (architecture MoE, donc rapide malgre ses 16B de parametres).

Grands modeles (13-14B) : quand il en faut plus

Les modeles 13-14B marquent un saut de qualite notable par rapport aux 7B. Ils comprennent mieux les instructions complexes, produisent du texte plus coherent sur de longs passages, et gerent mieux les taches techniques. En quantification Q4, ils demandent environ 8-9 Go de VRAM.

C'est ici que la RTX 3060 12 Go montre sa superiorite face a la RTX 4060 8 Go : ses 12 Go de VRAM permettent de faire tourner un modele 14B en Q4 confortablement, tandis que la RTX 4060 ne peut tout simplement pas les charger.

Notre choix : Qwen 2.5 14B pour la polyvalence et les langues, Phi-3 Medium 14B pour le raisonnement logique et mathematique.

Modeles XL (30-34B) : territoire serieux

Les modeles 30-34B rivalisent avec GPT-3.5 en qualite, et certains comme Qwen 2.5 32B s'en approchent vraiment. En Q4_K_M, ils demandent environ 20 Go de VRAM, ce qui exclut la plupart des GPU grand public a une seule carte.

Vos options : la RTX 4090 (24 Go) les fait tourner avec une marge confortable. Le Mac Mini M4 Pro 24 Go les charge aussi, mais avec peu de marge pour le contexte. Le Mac M4 Pro 48 Go est ideal. Pour les PC, c'est le territoire du 2x GPU.

Notre choix : Qwen 2.5 32B est le roi de cette categorie. C'est probablement le meilleur modele open-source en termes de rapport qualite/taille. Pour le code, DeepSeek Coder 33B reste une reference.

Modeles XXL (70B+) : les poids lourds

Les modeles 70B representent le sommet de ce qui est raisonnablement executable en local. En qualite, Llama 3.1 70B et Qwen 2.5 72B rivalisent avec GPT-4 sur de nombreuses taches. Mais il faut le hardware pour les faire tourner.

En Q4_K_M, un modele 70B necessite environ 40 Go de memoire. Aucun GPU grand public seul ne suffit. Vos options :

  • 2x RTX 3090 (48 Go) — La solution la plus abordable (~1400 euros en occasion). Fonctionne bien avec llama.cpp en mode split.
  • Mac Mini M4 Pro 48 Go — Charge le modele, vitesse OK (~8-12 tokens/sec). Silencieux et compact.
  • Mac Studio M4 Ultra 128/192 Go — La solution la plus confortable. Vitesse rapide, peut meme charger en Q8 ou FP16.
  • NVIDIA DGX Spark 128 Go — Le nouveau jouet de NVIDIA. 128 Go de memoire unifiee avec GPU Grace Blackwell.

Quant a Mistral Large 2 (123B), il ne rentre que sur les machines Ultra : Mac Studio 128 Go+ ou DGX Spark. C'est un modele exceptionnel mais reserve a une elite de hardware.

Generation d'images : VRAM et vitesse

La generation d'images a ses propres regles. Contrairement aux LLM qui streament du texte, les modeles d'image ont besoin de la VRAM pendant toute la generation, et la vitesse depend fortement de la puissance brute du GPU (TFLOPS), pas seulement de la VRAM.

Stable Diffusion 1.5

Le classique. ~4 Go VRAM. Tourne sur tout. Des milliers de modeles et LoRA disponibles. Generation en 2-5 secondes sur une RTX 3060.

SDXL

La version HD. ~8 Go VRAM. Images 1024x1024 natives. Meilleure qualite que SD 1.5. 5-15 secondes sur une RTX 3060.

Flux Schnell

La version rapide de Flux. ~8 Go VRAM. 4 etapes de denoising au lieu de 20+. Qualite comparable a SDXL en 2-3x moins de temps.

Flux Dev

La version haute qualite. ~12 Go VRAM. La meilleure qualite d'image open-source en 2026. 20-50 etapes, 10-30 secondes sur une RTX 4090.

Quelle config pour votre budget ?

Budget 300 euros

Entree de gamme
Hardware
RTX 3060 12 Go (occasion)
Modele recommande
Llama 3.1 8B Q4
Performance
30-50 tokens/sec

Le meilleur point d'entree possible. La RTX 3060 12 Go en occasion est imbattable : ses 12 Go de VRAM ecrasent la RTX 4060 (8 Go) pour l'IA. Vous faites tourner tous les modeles 7-8B a pleine vitesse, et meme les 14B en Q4. Ajoutez Ollama et vous avez un assistant IA local en 5 minutes.

Budget 1000 euros

Sweet spot
Hardware
Mac Mini M4 Pro 24 Go
Modele recommande
Qwen 2.5 32B Q4
Performance
10-15 tokens/sec

Le Mac Mini M4 Pro 24 Go est une revelation pour l'IA locale. Sa memoire unifiee permet de charger Qwen 2.5 32B en Q4, un modele qui rivalise avec GPT-3.5 Turbo. Silencieux, compact, basse consommation. Si vous preferez un PC, une RTX 4070 Ti 12 Go (~550 euros) plus le reste de la config est une alternative solide pour les modeles 7-14B.

Budget 2000 euros

Beast mode
Hardware
2x RTX 3090 48 Go total
Modele recommande
Llama 3.1 70B Q4
Performance
15-25 tokens/sec

Deux RTX 3090 d'occasion (~700 euros chaque) vous donnent 48 Go de VRAM totale, suffisant pour faire tourner Llama 70B en Q4 a bonne vitesse. C'est la configuration la plus puissante en rapport prix/performance pour les gros modeles. Alternative : le Mac Mini M4 Pro 48 Go (~2200 euros) est plus elegant mais un peu plus lent sur les 70B.

Budget 5000 euros+

Sans limites
Hardware
Mac Studio M4 Ultra 128 Go / DGX Spark
Modele recommande
Tout. Meme Mistral Large 123B.
Performance
20-40 tokens/sec sur 70B

A ce budget, vous pouvez faire tourner n'importe quel modele open-source en local, y compris Llama 70B en FP16 (140 Go) sur un Mac Studio M4 Ultra 192 Go. Le NVIDIA DGX Spark (~4000 euros) avec ses 128 Go de memoire unifiee et son GPU Grace Blackwell est la nouvelle reference. Le Mac Studio M4 Ultra 128 Go (~5000 euros) reste l'option la plus polyvalente.

Questions frequentes

En quantification Q4_K_M (le standard), Llama 3.1 70B necessite environ 40 Go de VRAM/memoire. Cela exclut tous les GPU grand public a une seule carte. Vos options : 2x RTX 3090 (48 Go total, ~1400 euros d'occasion), Mac Mini M4 Pro 48 Go (~2200 euros), Mac Studio M4 Ultra 128 Go (~5000 euros), ou le NVIDIA DGX Spark 128 Go (~4000 euros). Sur le Mac 48 Go, ca passe juste avec peu de marge pour le contexte. Les configs 128 Go+ sont plus confortables et permettent meme le Q8 pour une meilleure qualite.
La quantification reduit la precision des poids du modele pour economiser de la memoire. Q4_K_M (4 bits) est le standard : il reduit la taille d'environ 60% avec une perte de qualite minime (souvent imperceptible). Q8 (8 bits) offre une meilleure qualite mais necessite environ 75% de la taille originale. FP16 (16 bits) est la precision complete, sans perte, mais necessite 2x la memoire. Pour 90% des usages, Q4_K_M est le meilleur compromis. Si vous avez la memoire, Q8 est un cran au-dessus. FP16 est reserve aux machines haut de gamme.
Ca depend du modele. Pour les petits modeles (7-14B), la RTX 4090 est nettement plus rapide grace a sa bande passante memoire superieure (~1 To/s vs ~400 Go/s sur M4 Ultra). Mais pour les gros modeles (32B-70B), le Mac avec sa memoire unifiee de 48-192 Go peut charger des modeles qui ne tiendraient tout simplement pas dans les 24 Go de VRAM d'une seule RTX 4090. Le Mac est aussi beaucoup plus silencieux (pas de ventilateur bruyant), consomme moins d'energie (75W vs 450W+), et est plus compact. En resume : RTX 4090 pour la vitesse pure sur les petits modeles, Mac pour la polyvalence et les gros modeles.