Ollama « out of memory » : les 7 solutions qui marchent vraiment

L’erreur la plus frustrante de l’IA locale se règle sans sortir la carte bleue dans 6 cas sur 7. Voici le diagnostic et les réglages exacts, du plus simple au plus radical.

Vous lancez ollama run llama3.3:70b, le téléchargement de 40 Go se termine enfin… et bam : Error: model requires more system memory (38.2 GiB) than is available. Ou pire, le cryptique CUDA error: out of memory. Respirez : c’est l’erreur n°1 de l’IA locale, et dans 6 cas sur 7 elle se règle sans acheter quoi que ce soit.

Pourquoi ça plante : la vraie mécanique

Un modèle doit tenir entièrement en mémoire pour générer du texte : ses poids + le cache de conversation (KV cache) + l’overhead CUDA. Ollama essaie de tout caser dans la VRAM du GPU ; ce qui déborde part en RAM ; ce qui déborde encore… plante. Le piège que 90 % des gens ratent : le KV cache grandit avec votre contexte. Un Llama 8B qui tourne nickel en conversation courte explose à 16k tokens de contexte.

💬 Vu sur X

[GROK_PLACEHOLDER_1 — citation verbatim X à insérer]

— [auteur] sur X, [date]

Les 7 solutions, de la gratuite à la radicale

1. Prenez une quantization plus agressive (gratuit, 2 min)

Le même modèle existe en plusieurs compressions. Si le Q4_K_M déborde, le Q3_K_M perd ~3 % de qualité pour ~25 % de mémoire en moins :

Modèle 8BTailleVRAM mini
Q8_0 (quasi sans perte)8,5 Go10 Go
Q4_K_M (le standard)4,9 Go6 Go
Q3_K_M (le plan B)4,0 Go5 Go
Q2_K (urgence seulement)3,2 Go4 Go

Commande : ollama run llama3.1:8b-instruct-q3_K_M — les variantes sont listées sur la page de chaque modèle.

2. Réduisez le contexte (gratuit, 30 s)

Ollama 2026 ouvre souvent 8k-128k de contexte par défaut selon les modèles. Chaque token de contexte coûte de la mémoire. /set parameter num_ctx 4096 dans la session, ou OLLAMA_CONTEXT_LENGTH=4096 au lancement : des gigas récupérés instantanément.

3. Quantifiez le KV cache (gratuit, le réglage que personne ne connaît)

OLLAMA_KV_CACHE_TYPE=q8_0 divise par deux la mémoire du cache de conversation, quasi sans perte. Avec OLLAMA_FLASH_ATTENTION=1, c’est le combo qui sauve les longs contextes sur 8 Go de VRAM.

4. Déchargez une partie sur le CPU (gratuit, plus lent)

/set parameter num_gpu 24 ne met que 24 couches sur le GPU, le reste en RAM. Vous perdez de la vitesse (2-4× plus lent) mais ça TOURNE. C’est là que 32 Go de RAM changent la donne.

5. Fermez ce qui squatte votre VRAM (gratuit, vérifiez !)

Chrome avec 40 onglets = 1,5 Go de VRAM. Un jeu en pause = 4 Go. nvidia-smi vous dit qui mange quoi. Sur Windows, le bureau lui-même prend 0,5-1 Go — les modèles « qui devraient rentrer » ne rentrent jamais pile-poil.

6. Changez de gabarit de modèle (gratuit, souvent LA bonne réponse)

Verdict tranché : un Qwen 14B qui tourne bien bat un 70B qui rame en offload. Les modèles 2026 de 8-14B font ce que les 70B de 2024 faisaient. Inutile de forcer un 70B sur 12 Go de VRAM.

7. L’upgrade chirurgical (payant, mais malin)

Si vous êtes en 16 Go de RAM, passer à 32 Go (~70 €) débloque l’offload des 32B. Si votre GPU a 6-8 Go, la RTX 3060 12 Go d’occasion ou neuve (~290 €) reste le meilleur premier pas — pas besoin d’une 4090.

Kit RAM 32 Go (2×16) DDR4 3600

L’upgrade le plus rentable de l’IA locale : débloque l’offload des gros modèles.

Voir sur Amazon →

Lien affilié Amazon — prix identique pour vous, commission pour OutilsIA.

💬 Vu sur X

[GROK_PLACEHOLDER_2 — citation verbatim X à insérer]

— [auteur] sur X, [date]

Pas sûr de ce que VOTRE machine peut faire tourner ?

🔍 Tester mon PC en 10 secondes →

Le diagnostic en 30 secondes

Erreur au chargement → le modèle est trop gros : solutions 1, 6 ou 7. Erreur en pleine conversation → c’est le KV cache : solutions 2 et 3. Erreur aléatoire → quelque chose squatte la VRAM : solution 5. Pour aller plus loin : notre guide « quelle VRAM pour quel modèle » et le meilleur GPU à moins de 500 €.

Questions fréquentes

Pourquoi Ollama affiche out of memory alors que mon GPU a assez de VRAM ?

Parce que la VRAM n'est jamais vide : le bureau, le navigateur et l'overhead CUDA prennent 1 à 2 Go. Lancez nvidia-smi pour voir la consommation réelle avant de charger le modèle, et fermez les applications gourmandes.

Quelle quantization choisir pour éviter l'erreur sans perdre en qualité ?

Q4_K_M est le standard qualité/mémoire. Si ça déborde, Q3_K_M perd environ 3 % de qualité pour 25 % de mémoire en moins. Q2_K est un dépannage d'urgence : la qualité chute nettement.

Est-ce que rajouter de la RAM règle l'erreur out of memory ?

Oui si l'erreur mentionne system memory : 32 Go de RAM permettent l'offload CPU des modèles 32B. Non si c'est une erreur CUDA pure : là c'est la VRAM du GPU qui manque, donc quantization, contexte réduit ou GPU avec plus de VRAM.