Accueil Blog Installer Hermes
🛠 Guide pratique

Installer Hermes (Nous Research) en local : guide complet 2026

Config minimum, choix du modèle, Modelfile optimisé — tout pour tourner Hermes aujourd'hui.

Par l'équipe OutilsIA avril 2026 18 min de lecture

« Hermes est le modèle que je recommande à tous ceux qui débutent en IA locale. Il suit les instructions comme aucun autre, gère le JSON, le function calling, et raisonne avec des tags <think>. C'est le couteau suisse. »

— Communauté r/LocalLLaMA, consensus 2026

Vous voulez faire tourner Hermes sur votre machine ? Ce guide est fait pour vous. Pas de théorie, pas de blabla — juste les commandes à taper, le matériel nécessaire, et les réglages optimaux. En 20 minutes, Hermes tourne chez vous.

Hermes est développé par Nous Research, l'un des meilleurs labos open source en IA. Que vous ayez un PC gamer ou un Mac M4, il y a un Hermes pour vous. Voyons lequel.

⚡ Hermes en 30 secondes

🤖
Nous Research

Un des meilleurs labos open source en IA, fondé en 2023

🧬
Fine-tune de Llama

Basé sur Llama 3.1, affiné pour suivre les instructions parfaitement

💡
Raisonnement hybride

Tags <think> pour réfléchir avant de répondre

🔧
Function calling

Appels d'outils, APIs, bases de données — nativement

📦
JSON parfait

Sorties structurées fiables, idéal pour l'automatisation

🏆
Favori communauté

Le « Swiss Army knife » de l'IA locale sur r/LocalLLaMA

📚 La famille Hermes en avril 2026

  • Hermes 3 (8B) — Le classique, ultra rapide, parfait pour débuter
  • Hermes 4 (14B) — Le sweet spot : meilleur raisonnement, taille raisonnable
  • Hermes 4.3 (36B) — Le plus récent, excellent pour le code et la logique
  • Hermes 4 (70B) — Qualité proche de GPT-4, exige du matériel sérieux
  • Hermes 4 (405B) — Le monstre, réservé aux labos et entreprises

💻 Quel Hermes choisir selon ton hardware ?

Le choix dépend de ta VRAM (mémoire du GPU). Voici le tableau complet. Vérifie d'abord si ton PC peut faire tourner l'IA locale.

Modèle Params VRAM min GPU recommandé Vitesse Pour qui
hermes3:8b 8B 6 Go RTX 3060 12Go 40-60 tok/s Débutant, laptop
hermes3:8b-q4 8B Q4 4.5 Go GTX 1660 6Go 30-45 tok/s Petit budget
hermes4:14b ⭐ 14B 10 Go RTX 4060 Ti 16Go 25-40 tok/s Usage quotidien
hermes4.3:36b 36B 24 Go RTX 4090 24Go 15-25 tok/s Semi-pro
hermes4:70b-q4 70B Q4 40 Go 2x RTX 3090 8-15 tok/s Power user
hermes4:70b-q8 70B Q8 70 Go 2x RTX 4090 10-18 tok/s Qualité max
hermes4:405b-q4 405B Q4 200+ Go 4x A100 80Go 3-5 tok/s Labo / entreprise

💡 Notre recommandation : Si tu débutes, prends hermes3:8b. Si tu veux le meilleur rapport qualité/performance, vise hermes4:14b avec une RTX 4060 Ti 16 Go. Consulte notre guide GPU pour l'IA locale.

🔨 3 configs recommandées

🌱

Tier « Je débute » — 500 à 800 €

Modèle visé : hermes3:8b

✓ Parfait pour chat, code, écriture. Hermes 3 8B tourne à 40-60 tokens/seconde — aussi rapide que ChatGPT.

🚀

Tier « Confortable » — 1 500 à 2 000 €

Modèle visé : hermes4:14b

⭐ Le sweet spot. Hermes 4 14B offre un raisonnement nettement supérieur au 8B. Notre choix éditorial. Voir aussi notre config ultime IA locale.

👑

Tier « Sans limite » — 3 000 à 5 000 €

Modèle visé : hermes4.3:36b ou hermes4:70b-q4

💥 Le 36B tient entièrement en VRAM sur une 4090. Le 70B-q4 nécessite un split CPU/GPU (40 Go GPU + le reste en RAM). Qualité proche de GPT-4.

 Alternative Mac

Mac Mini M4 Pro 24 Go

~1 800 € — hermes4:14b à ~30 tok/s

Voir sur Amazon →
Mac Studio M4 Ultra 192 Go

~9 500 € — hermes4:70b en mémoire unifiée

Voir sur Amazon →

Les Mac avec puce Apple Silicon utilisent la mémoire unifiée : toute la RAM est accessible au GPU. Un M4 Pro 24 Go = 24 Go de VRAM effective.

📹 Installation pas à pas

5 étapes, 10 minutes. On y va.

1

Installer Ollama

Ollama gère le téléchargement, le chargement en VRAM et l'exécution des modèles. C'est le moteur. Consultez notre guide complet d'installation Ollama pour plus de détails.

# Linux (une seule commande)
curl -fsSL https://ollama.com/install.sh | sh
# macOS (via Homebrew)
brew install ollama
# Windows
# Télécharger l'installeur sur ollama.com/download
# Double-cliquer, suivant, suivant, terminé.
2

Télécharger Hermes

Choisissez la version qui correspond à votre GPU. Le téléchargement prend 2-15 minutes selon la taille.

# Le plus populaire (8B, rapide, 4.7 Go)
ollama pull hermes3:8b
# Meilleur rapport qualité/taille (14B, 8.9 Go)
ollama pull hermes4:14b
# Le plus récent, 36B (21 Go)
ollama pull hermes4.3
# Le monstre quantizé (70B Q4, 40 Go)
ollama pull hermes4:70b-q4_K_M
3

Lancer et tester

ollama run hermes3:8b
Exemple de conversation :
>>> Explique-moi le pattern Observer en Python, avec un exemple concret.
<think>
L'utilisateur demande une explication du pattern Observer avec du code Python...
Je vais donner un exemple avec un système de notifications...
</think>

Le pattern Observer permet à un objet (le sujet) de notifier automatiquement d'autres objets (les observateurs) quand son état change...
[Code Python complet avec classes Subject et Observer]

💡 Remarquez les tags <think> : Hermes réfléchit avant de répondre. C'est le raisonnement hybride en action.

4

Créer un Modelfile optimisé

Un Modelfile personnalise le comportement de Hermes : température, system prompt, fenêtre de contexte. Créez un fichier Modelfile-hermes :

# Modelfile-hermes
FROM
hermes4:14b
# Paramètres optimisés
PARAMETER
temperature 0.7
PARAMETER
top_p 0.9
PARAMETER
top_k 40
PARAMETER
repeat_penalty 1.1
PARAMETER
num_ctx 8192
# System prompt
SYSTEM
"""
Tu es un assistant IA expert, précis et utile.
Tu réponds en français par défaut.
Utilise le raisonnement <think> pour les questions complexes.
Quand on te demande du code, donne du code fonctionnel et commenté.
"""
# Créer le modèle personnalisé
ollama create mon-hermes -f Modelfile-hermes
# Lancer
ollama run mon-hermes

⚙️ num_ctx 8192 = fenêtre de contexte de 8K tokens. Augmentez à 32768 si vous avez assez de VRAM (chaque doublement ajoute ~2 Go de VRAM).

5

Connecter Open WebUI (interface graphique)

Marre du terminal ? Open WebUI vous donne une interface identique à ChatGPT, connectée à votre Hermes local.

# Lancer Open WebUI avec Docker (une commande)
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
ghcr.io/open-webui/open-webui:main
# Ouvrir dans le navigateur
http://localhost:3000

✓ Sélectionnez « hermes4:14b » (ou votre modèle) dans le menu déroulant. C'est tout. Vous avez un ChatGPT privé.

💫 Les super-pouvoirs de Hermes

Hermes n'est pas juste « un autre modèle ». Voici ce qui le rend spécial — avec des exemples concrets.

🧠 Raisonnement hybride (<think> tags)

Hermes peut « réfléchir à voix haute » avant de répondre. Les tags <think> contiennent son raisonnement interne — vous pouvez les afficher ou les masquer.

>>> Combien font 17 x 38 ?
<think>
17 x 38 = 17 x 40 - 17 x 2 = 680 - 34 = 646
</think>
17 x 38 = 646

🔧 Function calling natif

Hermes peut appeler des outils externes : météo, base de données, API. Définissez les fonctions, il les appelle automatiquement.

# Définir une fonction météo dans le prompt
>>> Quel temps fait-il à Paris ?
[TOOL_CALL] get_weather(city="Paris")
→ {"temp": 18, "condition": "ensoleillé"}
Il fait 18°C à Paris, avec un ciel ensoleillé. ☀️

📦 Sortie JSON structurée

Besoin de données structurées ? Hermes produit du JSON valide de manière fiable — idéal pour l'automatisation.

>>> Extrais les entités de cette phrase en JSON :
"Apple a été fondée par Steve Jobs en 1976 à Cupertino"
{
"entreprise": "Apple",
"fondateur": "Steve Jobs",
"année": 1976,
"lieu": "Cupertino"
}

🎭 Roleplay et personas

Hermes excelle en roleplay et en incarnation de personnages. Le system prompt est suivi à la lettre — bien plus que la plupart des modèles.

# System prompt
"Tu es un professeur de physique quantique sarcastique"
>>> C'est quoi l'intrication quantique ?
Ah, excellent ! Vous voulez comprendre l'intrication quantique.
Imaginez deux chaussettes magiques : vous envoyez l'une à Mars,
et dès que vous mettez la gauche, celle sur Mars devient la droite.
Einstein appelait ça « l'action fantôme ». Il n'aimait pas. Moi non plus.
Mais la physique se fiche de nos opinions. *soupir*

⚖️ Hermes vs la concurrence

Comment Hermes se positionne face aux autres modèles locaux populaires ? Voici un comparatif rapide (taille 14B comparable). Voir aussi notre comparatif détaillé OpenClaw vs Hermes.

Critère Hermes 4 Qwen 2.5 Mistral Llama 3.1 Phi-3
Code ★★★★ ★★★★★ ★★★★ ★★★ ★★★
Écriture ★★★★★ ★★★ ★★★★ ★★★★ ★★
Raisonnement ★★★★★ ★★★★ ★★★ ★★★★ ★★★
Français ★★★★ ★★★ ★★★★★ ★★★★ ★★
Vitesse ★★★★ ★★★★ ★★★★★ ★★★★ ★★★★★
Tool use ★★★★★ ★★★★ ★★★ ★★★ ★★

💡 En résumé : Hermes domine en tool use, raisonnement et écriture. Pour le code pur, Qwen 2.5 a un léger avantage. Pour le français natif, Mistral reste roi. Mais pour un usage polyvalent, Hermes est le meilleur choix.

⚙️ Tips et optimisations

Q4 vs Q8 : quand choisir quoi ?

  • Q4_K_M : taille réduite de ~60%, perte de qualité minime (~2-3%). Choisissez Q4 si la VRAM est limitée.
  • Q8_0 : quasi-identique au modèle original. Choisissez Q8 si vous avez la VRAM.
  • • Règle : un modèle plus gros en Q4 bat un plus petit en Q8. Préférez 14B-Q4 à 8B-Q8.

GPU offloading partiel

  • • Si le modèle ne tient pas en VRAM, Ollama décharge automatiquement les couches restantes sur le CPU.
  • • Forcez le nombre de couches GPU : OLLAMA_NUM_GPU=30 ollama run hermes4:70b-q4
  • • Plus de couches GPU = plus rapide, mais nécessite plus de VRAM.

Impact de la fenêtre de contexte

  • 4K tokens : usage basique, économise la VRAM
  • 8K tokens : bon compromis (défaut Ollama)
  • 32K tokens : documents longs, ajoute ~4-8 Go de VRAM
  • • Règle : chaque doublement ≈ +2 Go de VRAM

Batch processing

  • • Utilisez l'API Ollama pour traiter des fichiers en lot
  • curl http://localhost:11434/api/generate -d '{"model":"hermes4:14b","prompt":"..."}'
  • • Combinez avec un script Python pour traiter des centaines de fichiers automatiquement

🎮 Quel Hermes pour moi ? (configurateur)

Sélectionnez votre GPU et votre usage, on vous recommande le meilleur modèle Hermes avec la commande à copier.

🚧 Dépannage rapide

✗ « Error: model requires more memory than available »

Le modèle ne tient pas en VRAM. Solutions : 1) Choisir un modèle plus petit ou plus quantizé (Q4). 2) Fermer les applications qui utilisent le GPU (jeux, navigateur). 3) Augmenter le GPU offloading vers le CPU.

✗ « Ollama n'est pas reconnu comme commande »

Redémarrez votre terminal. Sous Windows, redémarrez le PC. Sous Linux, vérifiez que /usr/local/bin/ollama existe.

⚠ Hermes répond en anglais malgré le system prompt français

Ajoutez dans votre Modelfile : SYSTEM "Tu réponds TOUJOURS en français, quoi qu'il arrive." et recréez le modèle avec ollama create.

⚠ La génération est lente (moins de 5 tok/s)

Le modèle tourne probablement sur CPU. Vérifiez que vos drivers NVIDIA/CUDA sont installés : nvidia-smi. Si la commande n'est pas trouvée, installez les drivers NVIDIA.

Questions fréquentes

Hermes 3 (8B) est basé sur Llama 3.1 et optimisé pour la vitesse. Hermes 4 (14B, 36B, 70B, 405B) est la nouvelle génération avec un raisonnement hybride amélioré (tags <think>), un meilleur suivi d'instructions et un function calling plus fiable. Si votre GPU le permet, prenez Hermes 4.
Oui, 100% gratuit et open source. Hermes est distribué sous licence Apache 2.0. Vous pouvez l'utiliser pour un usage personnel ou commercial sans restrictions. Le seul coût est votre matériel (GPU) et l'électricité.
Techniquement oui, Ollama peut faire tourner Hermes sur CPU uniquement. Mais ce sera lent : 5-10 tokens par seconde au mieux pour le 8B. Pour une expérience agréable, un GPU avec au moins 6 Go de VRAM (comme une GTX 1660 Super) est recommandé. Vérifiez avec notre outil « Mon PC peut-il ? »
Hermes 4 14B n'atteint pas le niveau de GPT-4o pour les tâches complexes. Mais il est gratuit, illimité, privé et hors-ligne. Pour du chat quotidien, de l'écriture et du code simple, Hermes 14B est très compétitif. Le 70B se rapproche sérieusement de GPT-4. Consultez notre guide Open WebUI + Ollama pour une interface identique à ChatGPT.
Hermes 3 8B : ~4.7 Go. Hermes 4 14B : ~8.9 Go. Hermes 4.3 36B : ~21 Go. Hermes 4 70B Q4 : ~40 Go. Prévoyez un SSD NVMe avec au moins 500 Go si vous comptez tester plusieurs modèles. Les modèles sont stockés dans ~/.ollama/models/.
Oui. Hermes supporte une fenêtre de contexte allant jusqu'à 128K tokens (selon la version). Avec Open WebUI, vous pouvez activer le RAG (Retrieval-Augmented Generation) pour interroger vos documents PDF, texte ou code. Attention : une fenêtre de contexte large consomme plus de VRAM.

Prêt à installer Hermes ?

Deux commandes suffisent. Votre IA locale, privée et illimitée, en moins de 5 minutes.

curl -fsSL https://ollama.com/install.sh | sh
ollama run hermes4:14b