Configurer DeepSeek avec Ollama : le guide qui évite les pièges

Le modèle de raisonnement star tourne chez vous en une commande — à condition de choisir la bonne variante et 4 réglages que la doc cache bien.

DeepSeek-R1, c’est le modèle qui « réfléchit avant de répondre » — et la star des modèles open source de raisonnement. Bonne nouvelle : il tourne en local avec Ollama en une commande. Moins bonne nouvelle : entre les 7 variantes, les balises <think> qui polluent les réponses et la VRAM qui explose, il y a quelques pièges. Guide complet, testé sur notre matériel.

Installation : 2 commandes, montre en main

Ollama installé ? (sinon : notre guide). Alors :

ollama run deepseek-r1:8b

C’est tout. Le modèle se télécharge (5,2 Go) et la conversation démarre. Vous verrez le modèle « penser » entre balises avant de répondre — c’est normal, c’est son ADN.

Quelle variante pour VOTRE machine ?

VarianteTailleVRAM/RAM miniPour qui
deepseek-r1:1.5b1,1 Go4 GoRaspberry Pi, vieux laptops — dépannage
deepseek-r1:8b5,2 Go8 Go VRAMLE bon départ — RTX 3060/4060
deepseek-r1:14b9,0 Go12 Go VRAM3060 12 Go pile-poil, raisonnement sérieux
deepseek-r1:32b20 Go24 Go VRAM3090/4090 — qualité quasi-cloud
deepseek-r1:70b43 Go48 Go+Bi-GPU ou Mac 64 Go+

💬 Vu sur X

[GROK_PLACEHOLDER_1 — citation verbatim X à insérer]

— [auteur] sur X, [date]

Pas sûr de ce que VOTRE machine peut faire tourner ?

🔍 Tester mon PC en 10 secondes →

Les 4 réglages qui changent tout

1. La température : 0.6, pas plus

DeepSeek-R1 part en boucles de raisonnement infinies à température élevée. La doc officielle recommande 0.5-0.7 : /set parameter temperature 0.6.

2. Pas de prompt système

Contre-intuitif : R1 a été entraîné SANS prompt système. Mettez vos instructions directement dans le message utilisateur — sinon le raisonnement se dégrade.

3. Le contexte : prévoyez large pour la « pensée »

Le raisonnement consomme des tokens — parfois 2 000 tokens de <think> pour 200 tokens de réponse. /set parameter num_ctx 8192 minimum, sinon il oublie sa propre réflexion en cours de route.

4. Masquer la pensée dans vos apps

En API, filtrez tout ce qui est entre <think> et </think> avant d’afficher. La plupart des UIs (Open WebUI, etc.) le font nativement en 2026 — cochez « hide reasoning ».

💬 Vu sur X

[GROK_PLACEHOLDER_2 — citation verbatim X à insérer]

— [auteur] sur X, [date]

Ça plante ? Les 2 erreurs classiques

« out of memory » : la variante est trop grosse pour votre VRAM — descendez d’un cran ou suivez nos 7 solutions anti-OOM. Réponses interminables : température trop haute ou question trop vague — R1 « sur-réfléchit » les questions ouvertes ; soyez précis.

Côté matériel, le palier idéal pour R1 en 2026 c’est 12-16 Go de VRAM : voir notre verdict GPU à moins de 500 €.

Questions fréquentes

Quelle version de DeepSeek-R1 choisir avec 12 Go de VRAM ?

deepseek-r1:14b (9 Go) est le sweet spot : il tient dans 12 Go avec un contexte raisonnable. Le 8b laisse plus de marge pour les longues conversations.

Pourquoi DeepSeek affiche-t-il des balises think dans ses réponses ?

C'est son processus de raisonnement visible, hérité de son entraînement. Les interfaces modernes les masquent (option hide reasoning) ; en API, filtrez le contenu entre et .

DeepSeek-R1 local est-il aussi bon que la version en ligne ?

Les variantes 1.5b à 70b sont des distillations : le 32b s'approche sérieusement du modèle complet pour le raisonnement courant. Le 8b est déjà bluffant pour du local gratuit et privé.