Quelle différence entre Hermes 3 et Hermes 4 ?

Hermes 3 (8B) est basé sur Llama 3.1 et optimisé pour la vitesse. Hermes 4 (14B, 36B, 70B, 405B) est la nouvelle génération avec un raisonnement hybride amélioré (tags think), un meilleur suivi d'instructions et un function calling plus fiable.

Hermes est-il gratuit ?

Oui, 100% gratuit et open source. Hermes est distribué sous licence Apache 2.0. Vous pouvez l'utiliser pour un usage personnel ou commercial sans restrictions.

Peut-on faire tourner Hermes sans GPU dédié ?

Techniquement oui, Ollama peut faire tourner Hermes sur CPU uniquement. Mais ce sera lent : 5-10 tokens par seconde au mieux pour le 8B. Pour une expérience agréable, un GPU avec au moins 6 Go de VRAM est recommandé.

Hermes est-il meilleur que ChatGPT pour un usage local ?

Hermes 4 14B n'atteint pas le niveau de GPT-4o pour les tâches complexes. Mais il est gratuit, illimité, privé et hors-ligne. Pour du chat quotidien, de l'écriture et du code simple, Hermes 14B est très compétitif. Le 70B se rapproche sérieusement de GPT-4.

Combien d'espace disque faut-il pour Hermes ?

Hermes 3 8B : environ 4.7 Go. Hermes 4 14B : environ 8.9 Go. Hermes 4.3 36B : environ 21 Go. Hermes 4 70B Q4 : environ 40 Go. Prévoyez un SSD NVMe avec au moins 500 Go.

Hermes peut-il gérer des documents longs (RAG) ?

Oui. Hermes supporte une fenêtre de contexte allant jusqu'à 128K tokens. Avec Open WebUI, vous pouvez activer le RAG pour interroger vos documents PDF, texte ou code. Attention : une fenêtre de contexte large consomme plus de VRAM.

Installer Hermes (Nous Research) en local : guide complet config + modèles 2026

« Hermes est le modèle que je recommande à tous ceux qui débutent en IA locale. Il suit les instructions comme aucun autre, gère le JSON, le function calling, et raisonne avec des tags <think>. C'est le couteau suisse. »

— Communauté r/LocalLLaMA, consensus 2026

Vous voulez faire tourner Hermes sur votre machine ? Ce guide est fait pour vous. Pas de théorie, pas de blabla — juste les commandes à taper, le matériel nécessaire, et les réglages optimaux. En 20 minutes, Hermes tourne chez vous.

Hermes est développé par Nous Research, l'un des meilleurs labos open source en IA. Que vous ayez un PC gamer ou un Mac M4, il y a un Hermes pour vous. Voyons lequel.

⚡ Hermes en 30 secondes

🤖

Nous Research

Un des meilleurs labos open source en IA, fondé en 2023

🧬

Fine-tune de Llama

Basé sur Llama 3.1, affiné pour suivre les instructions parfaitement

💡

Raisonnement hybride

Tags <think> pour réfléchir avant de répondre

🔧

Function calling

Appels d'outils, APIs, bases de données — nativement

📦

JSON parfait

Sorties structurées fiables, idéal pour l'automatisation

🏆

Favori communauté

Le « Swiss Army knife » de l'IA locale sur r/LocalLLaMA

📚 La famille Hermes en avril 2026

• Hermes 3 (8B) — Le classique, ultra rapide, parfait pour débuter
• Hermes 4 (14B) — Le sweet spot : meilleur raisonnement, taille raisonnable
• Hermes 4.3 (36B) — Le plus récent, excellent pour le code et la logique
• Hermes 4 (70B) — Qualité proche de GPT-4, exige du matériel sérieux
• Hermes 4 (405B) — Le monstre, réservé aux labos et entreprises

💻 Quel Hermes choisir selon ton hardware ?

Le choix dépend de ta VRAM (mémoire du GPU). Voici le tableau complet. Vérifie d'abord si ton PC peut faire tourner l'IA locale.

Modèle	Params	VRAM min	GPU recommandé	Vitesse	Pour qui
hermes3:8b	8B	6 Go	RTX 3060 12Go	40-60 tok/s	Débutant, laptop
hermes3:8b-q4	8B Q4	4.5 Go	GTX 1660 6Go	30-45 tok/s	Petit budget
hermes4:14b ⭐	14B	10 Go	RTX 4060 Ti 16Go	25-40 tok/s	Usage quotidien
hermes4.3:36b	36B	24 Go	RTX 4090 24Go	15-25 tok/s	Semi-pro
hermes4:70b-q4	70B Q4	40 Go	2x RTX 3090	8-15 tok/s	Power user
hermes4:70b-q8	70B Q8	70 Go	2x RTX 4090	10-18 tok/s	Qualité max
hermes4:405b-q4	405B Q4	200+ Go	4x A100 80Go	3-5 tok/s	Labo / entreprise

💡 Notre recommandation : Si tu débutes, prends hermes3:8b. Si tu veux le meilleur rapport qualité/performance, vise hermes4:14b avec une RTX 4060 Ti 16 Go. Consulte notre guide GPU pour l'IA locale.

🔨 3 configs recommandées

🌱

Tier « Je débute » — 500 à 800 €

Modèle visé : hermes3:8b

GPU RTX 3060 12Go (~350 €)

CPU Ryzen 5 5600

RAM 16 Go DDR4

SSD 500 Go NVMe

✓ Parfait pour chat, code, écriture. Hermes 3 8B tourne à 40-60 tokens/seconde — aussi rapide que ChatGPT.

🚀

Tier « Confortable » — 1 500 à 2 000 €

Modèle visé : hermes4:14b

GPU RTX 4070 Ti Super 16Go (~1 200 €)

CPU Ryzen 7 7700X

RAM 32 Go DDR5

SSD 1 To NVMe

⭐ Le sweet spot. Hermes 4 14B offre un raisonnement nettement supérieur au 8B. Notre choix éditorial. Voir aussi notre config ultime IA locale.

👑

Tier « Sans limite » — 3 000 à 5 000 €

Modèle visé : hermes4.3:36b ou hermes4:70b-q4

GPU RTX 4090 24Go (~3 500 €)

CPU Ryzen 9 7950X

RAM 64 Go DDR5

SSD 2 To NVMe

💥 Le 36B tient entièrement en VRAM sur une 4090. Le 70B-q4 nécessite un split CPU/GPU (40 Go GPU + le reste en RAM). Qualité proche de GPT-4.

 Alternative Mac

Mac Mini M4 Pro 24 Go

~1 800 € — hermes4:14b à ~30 tok/s

Voir sur Amazon →

Mac Studio M4 Ultra 192 Go

~9 500 € — hermes4:70b en mémoire unifiée

Voir sur Amazon →

Les Mac avec puce Apple Silicon utilisent la mémoire unifiée : toute la RAM est accessible au GPU. Un M4 Pro 24 Go = 24 Go de VRAM effective.

📹 Installation pas à pas

5 étapes, 10 minutes. On y va.

Installer Ollama

Ollama gère le téléchargement, le chargement en VRAM et l'exécution des modèles. C'est le moteur. Consultez notre guide complet d'installation Ollama pour plus de détails.

# Linux (une seule commande)

curl -fsSL https://ollama.com/install.sh | sh

# macOS (via Homebrew)

brew install ollama

# Windows

# Télécharger l'installeur sur ollama.com/download

# Double-cliquer, suivant, suivant, terminé.

Télécharger Hermes

Choisissez la version qui correspond à votre GPU. Le téléchargement prend 2-15 minutes selon la taille.

# Le plus populaire (8B, rapide, 4.7 Go)

ollama pull hermes3:8b

# Meilleur rapport qualité/taille (14B, 8.9 Go)

ollama pull hermes4:14b

# Le plus récent, 36B (21 Go)

ollama pull hermes4.3

# Le monstre quantizé (70B Q4, 40 Go)

ollama pull hermes4:70b-q4_K_M

Lancer et tester

ollama run hermes3:8b

Exemple de conversation :

>>> Explique-moi le pattern Observer en Python, avec un exemple concret.

<think>
L'utilisateur demande une explication du pattern Observer avec du code Python...
Je vais donner un exemple avec un système de notifications...
</think>

Le pattern Observer permet à un objet (le sujet) de notifier automatiquement d'autres objets (les observateurs) quand son état change...
[Code Python complet avec classes Subject et Observer]

💡 Remarquez les tags <think> : Hermes réfléchit avant de répondre. C'est le raisonnement hybride en action.

Créer un Modelfile optimisé

Un Modelfile personnalise le comportement de Hermes : température, system prompt, fenêtre de contexte. Créez un fichier Modelfile-hermes :

# Modelfile-hermes

FROM

hermes4:14b

# Paramètres optimisés

PARAMETER

temperature 0.7

PARAMETER

top_p 0.9

PARAMETER

top_k 40

PARAMETER

repeat_penalty 1.1

PARAMETER

num_ctx 8192

# System prompt

SYSTEM

"""

Tu es un assistant IA expert, précis et utile.

Tu réponds en français par défaut.

Utilise le raisonnement <think> pour les questions complexes.

Quand on te demande du code, donne du code fonctionnel et commenté.

"""

# Créer le modèle personnalisé

ollama create mon-hermes -f Modelfile-hermes

# Lancer

ollama run mon-hermes

⚙️ num_ctx 8192 = fenêtre de contexte de 8K tokens. Augmentez à 32768 si vous avez assez de VRAM (chaque doublement ajoute ~2 Go de VRAM).

Connecter Open WebUI (interface graphique)

Marre du terminal ? Open WebUI vous donne une interface identique à ChatGPT, connectée à votre Hermes local.

# Lancer Open WebUI avec Docker (une commande)

docker run -d -p 3000:8080 \

--add-host=host.docker.internal:host-gateway \

ghcr.io/open-webui/open-webui:main

# Ouvrir dans le navigateur

http://localhost:3000

✓ Sélectionnez « hermes4:14b » (ou votre modèle) dans le menu déroulant. C'est tout. Vous avez un ChatGPT privé.

💫 Les super-pouvoirs de Hermes

Hermes n'est pas juste « un autre modèle ». Voici ce qui le rend spécial — avec des exemples concrets.

🧠 Raisonnement hybride (<think> tags)

Hermes peut « réfléchir à voix haute » avant de répondre. Les tags <think> contiennent son raisonnement interne — vous pouvez les afficher ou les masquer.

>>> Combien font 17 x 38 ?

<think>

17 x 38 = 17 x 40 - 17 x 2 = 680 - 34 = 646

</think>

17 x 38 = 646

🔧 Function calling natif

Hermes peut appeler des outils externes : météo, base de données, API. Définissez les fonctions, il les appelle automatiquement.

# Définir une fonction météo dans le prompt

>>> Quel temps fait-il à Paris ?

[TOOL_CALL] get_weather(city="Paris")

→ {"temp": 18, "condition": "ensoleillé"}

Il fait 18°C à Paris, avec un ciel ensoleillé. ☀️

📦 Sortie JSON structurée

Besoin de données structurées ? Hermes produit du JSON valide de manière fiable — idéal pour l'automatisation.

>>> Extrais les entités de cette phrase en JSON :

"Apple a été fondée par Steve Jobs en 1976 à Cupertino"

{

"entreprise": "Apple",

"fondateur": "Steve Jobs",

"année": 1976,

"lieu": "Cupertino"

}

🎭 Roleplay et personas

Hermes excelle en roleplay et en incarnation de personnages. Le system prompt est suivi à la lettre — bien plus que la plupart des modèles.

# System prompt

"Tu es un professeur de physique quantique sarcastique"

>>> C'est quoi l'intrication quantique ?

Ah, excellent ! Vous voulez comprendre l'intrication quantique.
Imaginez deux chaussettes magiques : vous envoyez l'une à Mars,
et dès que vous mettez la gauche, celle sur Mars devient la droite.
Einstein appelait ça « l'action fantôme ». Il n'aimait pas. Moi non plus.
Mais la physique se fiche de nos opinions. *soupir*

⚖️ Hermes vs la concurrence

Comment Hermes se positionne face aux autres modèles locaux populaires ? Voici un comparatif rapide (taille 14B comparable). Voir aussi notre comparatif détaillé OpenClaw vs Hermes.

Critère	Hermes 4	Qwen 2.5	Mistral	Llama 3.1	Phi-3
Code	★★★★	★★★★★	★★★★	★★★	★★★
Écriture	★★★★★	★★★	★★★★	★★★★	★★
Raisonnement	★★★★★	★★★★	★★★	★★★★	★★★
Français	★★★★	★★★	★★★★★	★★★★	★★
Vitesse	★★★★	★★★★	★★★★★	★★★★	★★★★★
Tool use	★★★★★	★★★★	★★★	★★★	★★

💡 En résumé : Hermes domine en tool use, raisonnement et écriture. Pour le code pur, Qwen 2.5 a un léger avantage. Pour le français natif, Mistral reste roi. Mais pour un usage polyvalent, Hermes est le meilleur choix.

⚙️ Tips et optimisations

Q4 vs Q8 : quand choisir quoi ?

• Q4_K_M : taille réduite de ~60%, perte de qualité minime (~2-3%). Choisissez Q4 si la VRAM est limitée.
• Q8_0 : quasi-identique au modèle original. Choisissez Q8 si vous avez la VRAM.
• Règle : un modèle plus gros en Q4 bat un plus petit en Q8. Préférez 14B-Q4 à 8B-Q8.

GPU offloading partiel

• Si le modèle ne tient pas en VRAM, Ollama décharge automatiquement les couches restantes sur le CPU.
• Forcez le nombre de couches GPU : OLLAMA_NUM_GPU=30 ollama run hermes4:70b-q4
• Plus de couches GPU = plus rapide, mais nécessite plus de VRAM.

Impact de la fenêtre de contexte

• 4K tokens : usage basique, économise la VRAM
• 8K tokens : bon compromis (défaut Ollama)
• 32K tokens : documents longs, ajoute ~4-8 Go de VRAM
• Règle : chaque doublement ≈ +2 Go de VRAM

Batch processing

• Utilisez l'API Ollama pour traiter des fichiers en lot
• curl http://localhost:11434/api/generate -d '{"model":"hermes4:14b","prompt":"..."}'
• Combinez avec un script Python pour traiter des centaines de fichiers automatiquement

🎮 Quel Hermes pour moi ? (configurateur)

Sélectionnez votre GPU et votre usage, on vous recommande le meilleur modèle Hermes avec la commande à copier.

🚧 Dépannage rapide

✗ « Error: model requires more memory than available »

Le modèle ne tient pas en VRAM. Solutions : 1) Choisir un modèle plus petit ou plus quantizé (Q4). 2) Fermer les applications qui utilisent le GPU (jeux, navigateur). 3) Augmenter le GPU offloading vers le CPU.

✗ « Ollama n'est pas reconnu comme commande »

Redémarrez votre terminal. Sous Windows, redémarrez le PC. Sous Linux, vérifiez que /usr/local/bin/ollama existe.

⚠ Hermes répond en anglais malgré le system prompt français

Ajoutez dans votre Modelfile : SYSTEM "Tu réponds TOUJOURS en français, quoi qu'il arrive." et recréez le modèle avec ollama create.

⚠ La génération est lente (moins de 5 tok/s)

Le modèle tourne probablement sur CPU. Vérifiez que vos drivers NVIDIA/CUDA sont installés : nvidia-smi. Si la commande n'est pas trouvée, installez les drivers NVIDIA.

Installer Hermes (Nous Research) en local : guide complet 2026

⚡ Hermes en 30 secondes

📚 La famille Hermes en avril 2026

💻 Quel Hermes choisir selon ton hardware ?

🔨 3 configs recommandées

Tier « Je débute » — 500 à 800 €

Tier « Confortable » — 1 500 à 2 000 €

Tier « Sans limite » — 3 000 à 5 000 €

 Alternative Mac

📹 Installation pas à pas

Installer Ollama

Télécharger Hermes

Lancer et tester

Créer un Modelfile optimisé

Connecter Open WebUI (interface graphique)

💫 Les super-pouvoirs de Hermes

🧠 Raisonnement hybride (<think> tags)

🔧 Function calling natif

📦 Sortie JSON structurée

🎭 Roleplay et personas

⚖️ Hermes vs la concurrence

⚙️ Tips et optimisations

Q4 vs Q8 : quand choisir quoi ?

GPU offloading partiel

Impact de la fenêtre de contexte

Batch processing

🎮 Quel Hermes pour moi ? (configurateur)

✓ Notre recommandation

🚧 Dépannage rapide

Questions fréquentes

Liens et ressources

Articles associés

Prêt à installer Hermes ?