DeepSeek configure avec Ollama : la baleine qui raisonne en local

Guide installation locale

Configurer DeepSeek avec Ollama : le guide qui évite les pièges

Par Chris Drakkeng — passionné IA, développeur (Python/FastAPI), tests sur banc réel

DeepSeek avec Ollama peut être excellent, mais seulement si vous choisissez la bonne variante et les bons réglages dès le départ.

8Bpremier test rapide

14Bsweet spot 12 Go

32Braisonnement sérieux

Le modèle de raisonnement star tourne chez vous en une commande — à condition de choisir la bonne variante et 4 réglages que la doc cache bien.

DeepSeek-R1, c’est le modèle qui « réfléchit avant de répondre » — et la star des modèles open source de raisonnement. Bonne nouvelle : il tourne en local avec Ollama en une commande. Moins bonne nouvelle : entre les 7 variantes, les balises <think> qui polluent les réponses et la VRAM qui explose, il y a quelques pièges. Guide complet, testé sur notre matériel.

Installation2 commandes

Le plus facile est rarement le piège.

Choix modèleVRAM d’abord

La variante doit rentrer avec le contexte.

Réglage clétempérature 0.6

Moins de chaos, plus de raisonnement.

Piègebalises think

À masquer côté interface ou API.

Verdict rapide : ne lancez pas “le plus gros DeepSeek” au hasard. Commencez par 8B ou 14B, validez votre usage, puis montez.

Situation

Choix recommandé

Pourquoi

PC modeste

deepseek-r1:8b

Rapide, pédagogique, très bien pour tester.

RTX 3060 12 Go

deepseek-r1:14b

Le point d’équilibre qualité/mémoire.

RTX 3090/4090

deepseek-r1:32b

Le niveau intéressant pour raisonnement poussé.

Grosse station

70B et plus

À réserver aux machines vraiment dimensionnées.

Premier lancement

8B

Pour vérifier Ollama, prompts, vitesse et température.

Usage quotidien

14B

Le bon compromis si vous avez 12 Go de VRAM.

Mode sérieux

32B

Le modèle à viser pour analyse et raisonnement plus denses.

Installer Ollama

Posez la base locale proprement.

Lancer petit

Commencez par 8B pour valider la chaîne.

Monter en taille

Passez à 14B ou 32B selon la mémoire.

Stabiliser

Température, contexte, interface et masquage du raisonnement.

Installation : 2 commandes, montre en main

Ollama installé ? (sinon : notre guide). Alors :

ollama run deepseek-r1:8b

C’est tout. Le modèle se télécharge (5,2 Go) et la conversation démarre. Vous verrez le modèle « penser » entre balises avant de répondre — c’est normal, c’est son ADN.

Quelle variante pour VOTRE machine ?

Variante	Taille	VRAM/RAM mini	Pour qui
deepseek-r1:1.5b	1,1 Go	4 Go	Raspberry Pi, vieux laptops — dépannage
deepseek-r1:8b	5,2 Go	8 Go VRAM	LE bon départ — RTX 3060/4060
deepseek-r1:14b	9,0 Go	12 Go VRAM	3060 12 Go pile-poil, raisonnement sérieux
deepseek-r1:32b	20 Go	24 Go VRAM	3090/4090 — qualité quasi-cloud
deepseek-r1:70b	43 Go	48 Go+	Bi-GPU ou Mac 64 Go+

Pas sûr de ce que VOTRE machine peut faire tourner ?

🔍 Tester mon PC en 10 secondes →

Les 4 réglages qui changent tout

1. La température : 0.6, pas plus

DeepSeek-R1 part en boucles de raisonnement infinies à température élevée. La doc officielle recommande 0.5-0.7 : /set parameter temperature 0.6.

2. Pas de prompt système

Contre-intuitif : R1 a été entraîné SANS prompt système. Mettez vos instructions directement dans le message utilisateur — sinon le raisonnement se dégrade.

3. Le contexte : prévoyez large pour la « pensée »

Le raisonnement consomme des tokens — parfois 2 000 tokens de <think> pour 200 tokens de réponse. /set parameter num_ctx 8192 minimum, sinon il oublie sa propre réflexion en cours de route.

4. Masquer la pensée dans vos apps

En API, filtrez tout ce qui est entre <think> et </think> avant d’afficher. La plupart des UIs (Open WebUI, etc.) le font nativement en 2026 — cochez « hide reasoning ».

Ça plante ? Les 2 erreurs classiques

« out of memory » : la variante est trop grosse pour votre VRAM — descendez d’un cran ou suivez nos 7 solutions anti-OOM. Réponses interminables : température trop haute ou question trop vague — R1 « sur-réfléchit » les questions ouvertes ; soyez précis.

Côté matériel, le palier idéal pour R1 en 2026 c’est 12-16 Go de VRAM : voir notre verdict GPU à moins de 500 €.

Questions fréquentes

Quelle version de DeepSeek-R1 choisir avec 12 Go de VRAM ?

deepseek-r1:14b (9 Go) est le sweet spot : il tient dans 12 Go avec un contexte raisonnable. Le 8b laisse plus de marge pour les longues conversations.

Pourquoi DeepSeek affiche-t-il des balises think dans ses réponses ?

C'est son processus de raisonnement visible, hérité de son entraînement. Les interfaces modernes les masquent (option hide reasoning) ; en API, filtrez le contenu entre et .

DeepSeek-R1 local est-il aussi bon que la version en ligne ?

Les variantes 1.5b à 70b sont des distillations : le 32b s'approche sérieusement du modèle complet pour le raisonnement courant. Le 8b est déjà bluffant pour du local gratuit et privé.