Combien de VRAM faut-il pour faire tourner Llama 3.1 70B en local ?

En quantification Q4_K_M, Llama 3.1 70B nécessité environ 40 Go de VRAM. Cela signifie qu'il faut au minimum une RTX 4090 24 Go (en offloadant une partie sur la RAM, très lent) ou idealement 2x RTX 3090/4090 (48 Go), un Mac Studio M4 Ultra 128 Go, ou le NVIDIA DGX Spark 128 Go.

Quelle est la différence entre Q4, Q8 et FP16 pour les modèles IA ?

Q4_K_M compresse le modèle en 4 bits (environ 50% de la taille originale), avec une perte de qualité minime. Q8 utilise 8 bits (environ 75% de la taille) pour une meilleure qualité. FP16 est la précision complete (16 bits, 100% de la taille). Pour la plupart des usages, Q4_K_M offre le meilleur compromis taille/qualité.

Est-ce que le Mac M4 est meilleur qu'un PC avec RTX 4090 pour l'IA locale ?

Cela depend du modèle. Pour les petits modèles (7B-14B), la RTX 4090 est plus rapide grace a sa bande passante mémoire superieure. Mais pour les gros modèles (32B-70B), le Mac avec sa mémoire unifiee de 48-192 Go permet de charger des modèles qui ne tiendraient tout simplement pas en VRAM sur une seule RTX 4090. Le Mac est aussi plus silencieux et consomme moins d'énergie.

Accueil › Blog › Quel modèle IA sur quel hardware

Article de référence

Quel modèle IA sur quel hardware ? Le tableau complet 2026

🛒 Transparence affiliés. Cet article contient des liens affiliés Amazon. En achetant via ces liens, OutilsIA peut percevoir une commission, sans surcoût pour vous. Nos recommandations restent éditorialement indépendantes — aucun constructeur ne sponsorise ce contenu. Voir mentions légales.

LA question que tout le monde se pose : "Est-ce que mon hardware peut faire tourner ce modèle ?" Ce tableau y répond definitivement.

🔬Cet article est base sur nos tests réels (RTX 4080 Super 16Go, 64Go DDR5). Aucun test sponsorise.

Par L équipé OutilsIA • avril 2026 • 18 min de lecture

LA question que tout le monde pose

"Est-ce que je peux faire tourner Llama 3.1 70B sur ma RTX 4090 ?" "Qwen 32B tourne sur un Mac Mini M4 ?" "Mon portable avec 16 Go de RAM, ca passe pour Mistral 7B ?"

Cet article répond a toutes ces questions en un seul tableau. Plus de 25 modèles croises avec 14 configurations hardware, avec les niveaux de quantification, la vitesse en tokens/seconde, et un verdict clair pour chaque combinaison.

Comment lire ce tableau

Les niveaux de quantification

Q4_K_M — 4 bits. Le standard. Bonne qualite, taille reduite de ~60%. C'est ce qu'on utilise dans 90% des cas.
Q8 — 8 bits. Qualite superieure, mais nécessite ~2x plus de mémoire que Q4.
FP16 — 16 bits (precision complete). Qualite maximale, mais nécessite 2x la mémoire du modèle original. Reserve aux configs haut de gamme.

Les indicateurs de vitesse

Rapide — 20+ tokens/sec. Conversation fluide, temps réel.
OK — 5-20 tokens/sec. Utilisable, un peu d'attente.
Lent — 1-5 tokens/sec. Patience requise. Bon pour le batch.
Non — Ne tient pas en mémoire ou inutilisable.

VRAM vs RAM unifiee

Sur les GPU NVIDIA, le modèle doit tenir dans la VRAM (mémoire du GPU). Sur les Mac Apple Silicon, la mémoire est unifiee : CPU et GPU partagent la meme RAM, donc toute la RAM est disponible pour le modèle. C'est pourquoi un Mac Mini M4 Pro avec 48 Go peut charger des modèles qu'une RTX 4090 (24 Go VRAM) ne peut pas.

Le Mega Tableau

25+ modèles x 14 configs

Faites defiler horizontalement pour voir toutes les configurations. La premiere colonne (modèle) reste fixe.

Modèles de langage (LLM)

Modèle (quant.)	RAM requise	RTX 3060 12 Go	RTX 4060 8 Go	Mac Mini M4 16 Go	RTX 4060 Ti 16 Go	RTX 4070 Ti 12 Go	Mac Mini M4 Pro 24 Go	RTX 4090 24 Go	Mac Mini M4 Pro 48 Go	2x RTX 3090 48 Go	Mac Studio Ultra 128 Go	Mac Studio Ultra 192 Go	DGX Spark 128 Go	Laptop 16 Go RAM	Laptop 32 Go RAM
Petits modèles (1-3B) — Ultra rapides partout
Gemma 2 2B Q4	~1.5 Go	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	OK	Rapide
Qwen 2.5 3B Q4	~2 Go	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	OK	Rapide
Llama 3.2 3B Q4	~2 Go	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	OK	Rapide
Phi-3.5 Mini 3.8B Q4	~2.5 Go	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	OK	Rapide
Modèles moyens (7-9B) — Le sweet spot
Mistral 7B v0.3 Q4	~4.5 Go	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Lent	OK
Llama 3.1 8B Q4	~5 Go	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Lent	OK
Qwen 2.5 7B Q4	~4.5 Go	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Lent	OK
Gemma 2 9B Q4	~5.5 Go	Rapide	OK	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Lent	OK
DeepSeek Coder V2 Lite 16B Q4	~9 Go	OK	Non	OK	Rapide	OK	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Non	Lent
Grands modèles (13-14B) — GPU correct requis
Qwen 2.5 14B Q4	~8.5 Go	OK	Non	OK	Rapide	OK	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Non	Lent
Phi-3 Medium 14B Q4	~8 Go	OK	Non	OK	Rapide	OK	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Non	Lent
Llama 3.1 8B Q8	~8.5 Go	OK	Non	OK	Rapide	OK	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Non	Lent
Modèles XL (30-34B) — Hardware serieux requis
Qwen 2.5 32B Q4	~20 Go	Non	Non	Non	Non	Non	OK	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Non	Non
CodeLlama 34B Q4	~20 Go	Non	Non	Non	Non	Non	OK	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Non	Non
Yi 34B Q4	~20 Go	Non	Non	Non	Non	Non	OK	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Non	Non
DeepSeek Coder 33B Q4	~20 Go	Non	Non	Non	Non	Non	OK	Rapide	Rapide	Rapide	Rapide	Rapide	Rapide	Non	Non
Modèles XXL (70B+) — Le haut du panier
Llama 3.1 70B Q4	~40 Go	Non	Non	Non	Non	Non	Non	Non	OK	OK	Rapide	Rapide	Rapide	Non	Non
Qwen 2.5 72B Q4	~42 Go	Non	Non	Non	Non	Non	Non	Non	OK	OK	Rapide	Rapide	Rapide	Non	Non
Mistral Large 2 123B Q4	~70 Go	Non	Non	Non	Non	Non	Non	Non	Non	Non	OK	Rapide	OK	Non	Non

Modèles de generation d'images

Modèle	VRAM requise	RTX 3060 12 Go	RTX 4060 8 Go	Mac Mini M4 16 Go	RTX 4060 Ti 16 Go	RTX 4070 Ti 12 Go	Mac Mini M4 Pro 24 Go	RTX 4090 24 Go	Mac Mini M4 Pro 48 Go
Stable Diffusion 1.5	~4 Go	Rapide	Rapide	OK	Rapide	Rapide	OK	Rapide	Rapide
SDXL	~8 Go	OK	OK	OK	Rapide	OK	Rapide	Rapide	Rapide
Flux Schnell	~8 Go	OK	OK	OK	Rapide	OK	Rapide	Rapide	Rapide
Flux Dev	~12 Go	OK	Non	OK	Rapide	OK	Rapide	Rapide	Rapide

Petits modèles (1-3B) : pour qui ?

Les modèles de 1 a 3 milliards de parametres sont les plus accessibles. Ils tournent sur absolument tout, y compris un vieux portable avec 8 Go de RAM. Leur force : la vitesse. Sur un GPU moderne, attendez-vous a 80-150 tokens/seconde, soit plus vite que vous ne pouvez lire.

Cas d'usage ideaux : autocompletion de code en temps réel, chatbot embarque, resume de texte rapide, classification. Si vous avez besoin de reponses instantanees et que la tache ne demande pas un raisonnement complexe, un modèle 3B est parfait.

Notre choix : Qwen 2.5 3B offre le meilleur rapport taille/performance dans cette catégorie. Phi-3.5 Mini est excellent pour le raisonnement malgre sa petite taille.

Modèles moyens (7-9B) : le sweet spot

C'est LA catégorie que la plupart des utilisateurs devraient viser. Les modèles 7-8B offrent un excellent équilibre entre qualite et vitesse. Ils sont capables de conversations nuancees, de generation de code, de traduction, et d'analyse de texte. Avec une RTX 3060 (250 euros d'occasion), vous les faites tourner confortablement a 30-50 tokens/seconde.

La quantification Q4_K_M reduit leur empreinte mémoire a environ 4-5 Go, ce qui les rend compatibles avec pratiquement n'importe quel GPU de 8 Go ou plus. Meme un Mac Mini M4 16 Go les fait tourner rapidement grâce à la mémoire unifiee.

Notre choix : Llama 3.1 8B pour l'usage général, Mistral 7B v0.3 pour le francais, DeepSeek Coder V2 Lite 16B pour le code (architecture MoE, donc rapide malgre ses 16B de parametres).

Grands modèles (13-14B) : quand il en faut plus

Les modèles 13-14B marquent un saut de qualite notable par rapport aux 7B. Ils comprennent mieux les instructions complexes, produisent du texte plus coherent sur de longs passages, et gerent mieux les taches techniques. En quantification Q4, ils demandent environ 8-9 Go de VRAM.

C'est ici que la RTX 3060 12 Go montre sa superiorite face a la RTX 4060 8 Go : ses 12 Go de VRAM permettent de faire tourner un modèle 14B en Q4 confortablement, tandis que la RTX 4060 ne peut tout simplement pas les charger.

Notre choix : Qwen 2.5 14B pour la polyvalence et les langues, Phi-3 Medium 14B pour le raisonnement logique et mathematique.

Modèles XL (30-34B) : territoire serieux

Les modèles 30-34B rivalisent avec GPT-3.5 en qualite, et certains comme Qwen 2.5 32B s'en approchent vraiment. En Q4_K_M, ils demandent environ 20 Go de VRAM, ce qui exclut la plupart des GPU grand public a une seule carte.

Vos options : la RTX 4090 (24 Go) les fait tourner avec une marge confortable. Le Mac Mini M4 Pro 24 Go les charge aussi, mais avec peu de marge pour le contexte. Le Mac M4 Pro 48 Go est ideal. Pour les PC, c'est le territoire du 2x GPU.

Notre choix : Qwen 2.5 32B est le roi de cette catégorie. C'est probablement le meilleur modèle open-source en termes de rapport qualite/taille. Pour le code, DeepSeek Coder 33B reste une référence.

Modèles XXL (70B+) : les poids lourds

Les modèles 70B representent le sommet de ce qui est raisonnablement executable en local. En qualite, Llama 3.1 70B et Qwen 2.5 72B rivalisent avec GPT-4 sur de nombreuses taches. Mais il faut le hardware pour les faire tourner.

En Q4_K_M, un modèle 70B nécessite environ 40 Go de mémoire. Aucun GPU grand public seul ne suffit. Vos options :

2x RTX 3090 (48 Go) — La solution la plus abordable (~1400 euros en occasion). Fonctionne bien avec llama.cpp en mode split.
Mac Mini M4 Pro 48 Go — Charge le modèle, vitesse OK (~8-12 tokens/sec). Silencieux et compact.
Mac Studio M4 Ultra 128/192 Go — La solution la plus confortable. Vitesse rapide, peut meme charger en Q8 ou FP16.
NVIDIA DGX Spark 128 Go — Le nouveau jouet de NVIDIA. 128 Go de mémoire unifiee avec GPU Grace Blackwell.

Quant a Mistral Large 2 (123B), il ne rentre que sur les machines Ultra : Mac Studio 128 Go+ ou DGX Spark. C'est un modèle exceptionnel mais reserve a une elite de hardware.

Generation d'images : VRAM et vitesse

La generation d'images a ses propres regles. Contrairement aux LLM qui streament du texte, les modèles d'image ont besoin de la VRAM pendant toute la generation, et la vitesse depend fortement de la puissance brute du GPU (TFLOPS), pas seulement de la VRAM.

Stable Diffusion 1.5

Le classique. ~4 Go VRAM. Tourne sur tout. Des milliers de modèles et LoRA disponibles. Generation en 2-5 secondes sur une RTX 3060.

SDXL

La version HD. ~8 Go VRAM. Images 1024x1024 natives. Meilleure qualite que SD 1.5. 5-15 secondes sur une RTX 3060.

Flux Schnell

La version rapide de Flux. ~8 Go VRAM. 4 etapes de denoising au lieu de 20+. Qualite comparable a SDXL en 2-3x moins de temps.

Flux Dev

La version haute qualite. ~12 Go VRAM. La meilleure qualite d'image open-source en 2026. 20-50 etapes, 10-30 secondes sur une RTX 4090.

Quelle config pour votre budget ?

Budget 300 euros

Entree de gamme

Hardware

RTX 3060 12 Go (occasion)

Modèle recommande

Llama 3.1 8B Q4

Performance

30-50 tokens/sec

Le meilleur point d'entree possible. La RTX 3060 12 Go en occasion est imbattable : ses 12 Go de VRAM ecrasent la RTX 4060 (8 Go) pour l'IA. Vous faites tourner tous les modèles 7-8B a pleine vitesse, et meme les 14B en Q4. Ajoutez Ollama et vous avez un assistant IA local en 5 minutes.

Budget 1000 euros

Sweet spot

Hardware

Mac Mini M4 Pro 24 Go

Modèle recommande

Qwen 2.5 32B Q4

Performance

10-15 tokens/sec

Le Mac Mini M4 Pro 24 Go est une revelation pour l'IA locale. Sa mémoire unifiee permet de charger Qwen 2.5 32B en Q4, un modèle qui rivalise avec GPT-3.5 Turbo. Silencieux, compact, basse consommation. Si vous preferez un PC, une RTX 4070 Ti 12 Go (~550 euros) plus le reste de la config est une alternative solide pour les modèles 7-14B.

Budget 2000 euros

Beast mode

Hardware

2x RTX 3090 48 Go total

Modèle recommande

Llama 3.1 70B Q4

Performance

15-25 tokens/sec

Deux RTX 3090 d'occasion (~700 euros chaque) vous donnent 48 Go de VRAM totale, suffisant pour faire tourner Llama 70B en Q4 a bonne vitesse. C'est la configuration la plus puissante en rapport prix/performance pour les gros modèles. Alternative : le Mac Mini M4 Pro 48 Go (~2200 euros) est plus elegant mais un peu plus lent sur les 70B.

Budget 5000 euros+

Sans limites

Hardware

Mac Studio M4 Ultra 128 Go / DGX Spark

Modèle recommande

Tout. Meme Mistral Large 123B.

Performance

20-40 tokens/sec sur 70B

A ce budget, vous pouvez faire tourner n'importe quel modèle open-source en local, y compris Llama 70B en FP16 (140 Go) sur un Mac Studio M4 Ultra 192 Go. Le NVIDIA DGX Spark (~4000 euros) avec ses 128 Go de mémoire unifiee et son GPU Grace Blackwell est la nouvelle référence. Le Mac Studio M4 Ultra 128 Go (~5000 euros) reste l'option la plus polyvalente.

🛒 Voir les prix sur Amazon

RTX 3060 sur Amazon RTX 3090 sur Amazon RTX 4060 sur Amazon RTX 4070 sur Amazon RTX 4090 sur Amazon Mac Mini M4 sur Amazon Mac Studio sur Amazon

Liens affiliés. En achetant via ces liens, vous soutenez OutilsIA sans surcoût.

Questions frequentes

En quantification Q4_K_M (le standard), Llama 3.1 70B nécessité environ 40 Go de VRAM/mémoire. Cela exclut tous les GPU grand public a une seule carte. Vos options : 2x RTX 3090 (48 Go total, ~1400 euros d'occasion), Mac Mini M4 Pro 48 Go (~2200 euros), Mac Studio M4 Ultra 128 Go (~5000 euros), ou le NVIDIA DGX Spark 128 Go (~4000 euros). Sur le Mac 48 Go, ca passe juste avec peu de marge pour le contexte. Les configs 128 Go+ sont plus confortables et permettent même le Q8 pour une meilleure qualité.

La quantification reduit la precision des poids du modèle pour economiser de la mémoire. Q4_K_M (4 bits) est le standard : il reduit la taille d'environ 60% avec une perte de qualite minime (souvent imperceptible). Q8 (8 bits) offre une meilleure qualite mais nécessite environ 75% de la taille originale. FP16 (16 bits) est la precision complete, sans perte, mais nécessite 2x la mémoire. Pour 90% des usages, Q4_K_M est le meilleur compromis. Si vous avez la mémoire, Q8 est un cran au-dessus. FP16 est reserve aux machines haut de gamme.

Ca depend du modèle. Pour les petits modèles (7-14B), la RTX 4090 est nettement plus rapide grâce à sa bande passante mémoire superieure (~1 To/s vs ~400 Go/s sur M4 Ultra). Mais pour les gros modèles (32B-70B), le Mac avec sa mémoire unifiee de 48-192 Go peut charger des modèles qui ne tiendraient tout simplement pas dans les 24 Go de VRAM d'une seule RTX 4090. Le Mac est aussi beaucoup plus silencieux (pas de ventilateur bruyant), consomme moins d'energie (75W vs 450W+), et est plus compact. En resume : RTX 4090 pour la vitesse pure sur les petits modèles, Mac pour la polyvalence et les gros modèles.