Configurer DeepSeek avec Ollama : le guide qui évite les pièges
Le modèle de raisonnement star tourne chez vous en une commande — à condition de choisir la bonne variante et 4 réglages que la doc cache bien.
DeepSeek-R1, c’est le modèle qui « réfléchit avant de répondre » — et la star des modèles open source de raisonnement. Bonne nouvelle : il tourne en local avec Ollama en une commande. Moins bonne nouvelle : entre les 7 variantes, les balises <think> qui polluent les réponses et la VRAM qui explose, il y a quelques pièges. Guide complet, testé sur notre matériel.
Installation : 2 commandes, montre en main
Ollama installé ? (sinon : notre guide). Alors :
C’est tout. Le modèle se télécharge (5,2 Go) et la conversation démarre. Vous verrez le modèle « penser » entre balises avant de répondre — c’est normal, c’est son ADN.
Quelle variante pour VOTRE machine ?
| Variante | Taille | VRAM/RAM mini | Pour qui |
|---|---|---|---|
| deepseek-r1:1.5b | 1,1 Go | 4 Go | Raspberry Pi, vieux laptops — dépannage |
| deepseek-r1:8b | 5,2 Go | 8 Go VRAM | LE bon départ — RTX 3060/4060 |
| deepseek-r1:14b | 9,0 Go | 12 Go VRAM | 3060 12 Go pile-poil, raisonnement sérieux |
| deepseek-r1:32b | 20 Go | 24 Go VRAM | 3090/4090 — qualité quasi-cloud |
| deepseek-r1:70b | 43 Go | 48 Go+ | Bi-GPU ou Mac 64 Go+ |
💬 Vu sur X
[GROK_PLACEHOLDER_1 — citation verbatim X à insérer]
— [auteur] sur X, [date]
Pas sûr de ce que VOTRE machine peut faire tourner ?
🔍 Tester mon PC en 10 secondes →Les 4 réglages qui changent tout
1. La température : 0.6, pas plus
DeepSeek-R1 part en boucles de raisonnement infinies à température élevée. La doc officielle recommande 0.5-0.7 : /set parameter temperature 0.6.
2. Pas de prompt système
Contre-intuitif : R1 a été entraîné SANS prompt système. Mettez vos instructions directement dans le message utilisateur — sinon le raisonnement se dégrade.
3. Le contexte : prévoyez large pour la « pensée »
Le raisonnement consomme des tokens — parfois 2 000 tokens de <think> pour 200 tokens de réponse. /set parameter num_ctx 8192 minimum, sinon il oublie sa propre réflexion en cours de route.
4. Masquer la pensée dans vos apps
En API, filtrez tout ce qui est entre <think> et </think> avant d’afficher. La plupart des UIs (Open WebUI, etc.) le font nativement en 2026 — cochez « hide reasoning ».
💬 Vu sur X
[GROK_PLACEHOLDER_2 — citation verbatim X à insérer]
— [auteur] sur X, [date]
Ça plante ? Les 2 erreurs classiques
« out of memory » : la variante est trop grosse pour votre VRAM — descendez d’un cran ou suivez nos 7 solutions anti-OOM. Réponses interminables : température trop haute ou question trop vague — R1 « sur-réfléchit » les questions ouvertes ; soyez précis.
Côté matériel, le palier idéal pour R1 en 2026 c’est 12-16 Go de VRAM : voir notre verdict GPU à moins de 500 €.
Questions fréquentes
Quelle version de DeepSeek-R1 choisir avec 12 Go de VRAM ?
deepseek-r1:14b (9 Go) est le sweet spot : il tient dans 12 Go avec un contexte raisonnable. Le 8b laisse plus de marge pour les longues conversations.
Pourquoi DeepSeek affiche-t-il des balises think dans ses réponses ?
C'est son processus de raisonnement visible, hérité de son entraînement. Les interfaces modernes les masquent (option hide reasoning) ; en API, filtrez le contenu entre
DeepSeek-R1 local est-il aussi bon que la version en ligne ?
Les variantes 1.5b à 70b sont des distillations : le 32b s'approche sérieusement du modèle complet pour le raisonnement courant. Le 8b est déjà bluffant pour du local gratuit et privé.