Installer Hermes (Nous Research) en local : guide complet 2026
Config minimum, choix du modèle, Modelfile optimisé — tout pour tourner Hermes aujourd'hui.
« Hermes est le modèle que je recommande à tous ceux qui débutent en IA locale. Il suit les instructions comme aucun autre, gère le JSON, le function calling, et raisonne avec des tags <think>. C'est le couteau suisse. »
— Communauté r/LocalLLaMA, consensus 2026
Vous voulez faire tourner Hermes sur votre machine ? Ce guide est fait pour vous. Pas de théorie, pas de blabla — juste les commandes à taper, le matériel nécessaire, et les réglages optimaux. En 20 minutes, Hermes tourne chez vous.
Hermes est développé par Nous Research, l'un des meilleurs labos open source en IA. Que vous ayez un PC gamer ou un Mac M4, il y a un Hermes pour vous. Voyons lequel.
⚡ Hermes en 30 secondes
Un des meilleurs labos open source en IA, fondé en 2023
Basé sur Llama 3.1, affiné pour suivre les instructions parfaitement
Tags <think> pour réfléchir avant de répondre
Appels d'outils, APIs, bases de données — nativement
Sorties structurées fiables, idéal pour l'automatisation
Le « Swiss Army knife » de l'IA locale sur r/LocalLLaMA
📚 La famille Hermes en avril 2026
- • Hermes 3 (8B) — Le classique, ultra rapide, parfait pour débuter
- • Hermes 4 (14B) — Le sweet spot : meilleur raisonnement, taille raisonnable
- • Hermes 4.3 (36B) — Le plus récent, excellent pour le code et la logique
- • Hermes 4 (70B) — Qualité proche de GPT-4, exige du matériel sérieux
- • Hermes 4 (405B) — Le monstre, réservé aux labos et entreprises
💻 Quel Hermes choisir selon ton hardware ?
Le choix dépend de ta VRAM (mémoire du GPU). Voici le tableau complet. Vérifie d'abord si ton PC peut faire tourner l'IA locale.
| Modèle | Params | VRAM min | GPU recommandé | Vitesse | Pour qui |
|---|---|---|---|---|---|
| hermes3:8b | 8B | 6 Go | RTX 3060 12Go | 40-60 tok/s | Débutant, laptop |
| hermes3:8b-q4 | 8B Q4 | 4.5 Go | GTX 1660 6Go | 30-45 tok/s | Petit budget |
| hermes4:14b ⭐ | 14B | 10 Go | RTX 4060 Ti 16Go | 25-40 tok/s | Usage quotidien |
| hermes4.3:36b | 36B | 24 Go | RTX 4090 24Go | 15-25 tok/s | Semi-pro |
| hermes4:70b-q4 | 70B Q4 | 40 Go | 2x RTX 3090 | 8-15 tok/s | Power user |
| hermes4:70b-q8 | 70B Q8 | 70 Go | 2x RTX 4090 | 10-18 tok/s | Qualité max |
| hermes4:405b-q4 | 405B Q4 | 200+ Go | 4x A100 80Go | 3-5 tok/s | Labo / entreprise |
💡 Notre recommandation : Si tu débutes, prends hermes3:8b. Si tu veux le meilleur rapport qualité/performance, vise hermes4:14b avec une RTX 4060 Ti 16 Go. Consulte notre guide GPU pour l'IA locale.
🔨 3 configs recommandées
Tier « Je débute » — 500 à 800 €
Modèle visé : hermes3:8b
✓ Parfait pour chat, code, écriture. Hermes 3 8B tourne à 40-60 tokens/seconde — aussi rapide que ChatGPT.
Tier « Confortable » — 1 500 à 2 000 €
Modèle visé : hermes4:14b
⭐ Le sweet spot. Hermes 4 14B offre un raisonnement nettement supérieur au 8B. Notre choix éditorial. Voir aussi notre config ultime IA locale.
Tier « Sans limite » — 3 000 à 5 000 €
Modèle visé : hermes4.3:36b ou hermes4:70b-q4
💥 Le 36B tient entièrement en VRAM sur une 4090. Le 70B-q4 nécessite un split CPU/GPU (40 Go GPU + le reste en RAM). Qualité proche de GPT-4.
Alternative Mac
Les Mac avec puce Apple Silicon utilisent la mémoire unifiée : toute la RAM est accessible au GPU. Un M4 Pro 24 Go = 24 Go de VRAM effective.
📹 Installation pas à pas
5 étapes, 10 minutes. On y va.
Installer Ollama
Ollama gère le téléchargement, le chargement en VRAM et l'exécution des modèles. C'est le moteur. Consultez notre guide complet d'installation Ollama pour plus de détails.
Télécharger Hermes
Choisissez la version qui correspond à votre GPU. Le téléchargement prend 2-15 minutes selon la taille.
Lancer et tester
L'utilisateur demande une explication du pattern Observer avec du code Python...
Je vais donner un exemple avec un système de notifications...
</think>
Le pattern Observer permet à un objet (le sujet) de notifier automatiquement d'autres objets (les observateurs) quand son état change...
[Code Python complet avec classes Subject et Observer]
💡 Remarquez les tags <think> : Hermes réfléchit avant de répondre. C'est le raisonnement hybride en action.
Créer un Modelfile optimisé
Un Modelfile personnalise le comportement de Hermes : température, system prompt, fenêtre de contexte. Créez un fichier Modelfile-hermes :
⚙️ num_ctx 8192 = fenêtre de contexte de 8K tokens. Augmentez à 32768 si vous avez assez de VRAM (chaque doublement ajoute ~2 Go de VRAM).
Connecter Open WebUI (interface graphique)
Marre du terminal ? Open WebUI vous donne une interface identique à ChatGPT, connectée à votre Hermes local.
✓ Sélectionnez « hermes4:14b » (ou votre modèle) dans le menu déroulant. C'est tout. Vous avez un ChatGPT privé.
💫 Les super-pouvoirs de Hermes
Hermes n'est pas juste « un autre modèle ». Voici ce qui le rend spécial — avec des exemples concrets.
🧠 Raisonnement hybride (<think> tags)
Hermes peut « réfléchir à voix haute » avant de répondre. Les tags <think> contiennent son raisonnement interne — vous pouvez les afficher ou les masquer.
🔧 Function calling natif
Hermes peut appeler des outils externes : météo, base de données, API. Définissez les fonctions, il les appelle automatiquement.
📦 Sortie JSON structurée
Besoin de données structurées ? Hermes produit du JSON valide de manière fiable — idéal pour l'automatisation.
🎭 Roleplay et personas
Hermes excelle en roleplay et en incarnation de personnages. Le system prompt est suivi à la lettre — bien plus que la plupart des modèles.
Imaginez deux chaussettes magiques : vous envoyez l'une à Mars,
et dès que vous mettez la gauche, celle sur Mars devient la droite.
Einstein appelait ça « l'action fantôme ». Il n'aimait pas. Moi non plus.
Mais la physique se fiche de nos opinions. *soupir*
⚖️ Hermes vs la concurrence
Comment Hermes se positionne face aux autres modèles locaux populaires ? Voici un comparatif rapide (taille 14B comparable). Voir aussi notre comparatif détaillé OpenClaw vs Hermes.
| Critère | Hermes 4 | Qwen 2.5 | Mistral | Llama 3.1 | Phi-3 |
|---|---|---|---|---|---|
| Code | ★★★★ | ★★★★★ | ★★★★ | ★★★ | ★★★ |
| Écriture | ★★★★★ | ★★★ | ★★★★ | ★★★★ | ★★ |
| Raisonnement | ★★★★★ | ★★★★ | ★★★ | ★★★★ | ★★★ |
| Français | ★★★★ | ★★★ | ★★★★★ | ★★★★ | ★★ |
| Vitesse | ★★★★ | ★★★★ | ★★★★★ | ★★★★ | ★★★★★ |
| Tool use | ★★★★★ | ★★★★ | ★★★ | ★★★ | ★★ |
💡 En résumé : Hermes domine en tool use, raisonnement et écriture. Pour le code pur, Qwen 2.5 a un léger avantage. Pour le français natif, Mistral reste roi. Mais pour un usage polyvalent, Hermes est le meilleur choix.
⚙️ Tips et optimisations
Q4 vs Q8 : quand choisir quoi ?
- • Q4_K_M : taille réduite de ~60%, perte de qualité minime (~2-3%). Choisissez Q4 si la VRAM est limitée.
- • Q8_0 : quasi-identique au modèle original. Choisissez Q8 si vous avez la VRAM.
- • Règle : un modèle plus gros en Q4 bat un plus petit en Q8. Préférez 14B-Q4 à 8B-Q8.
GPU offloading partiel
- • Si le modèle ne tient pas en VRAM, Ollama décharge automatiquement les couches restantes sur le CPU.
- • Forcez le nombre de couches GPU : OLLAMA_NUM_GPU=30 ollama run hermes4:70b-q4
- • Plus de couches GPU = plus rapide, mais nécessite plus de VRAM.
Impact de la fenêtre de contexte
- • 4K tokens : usage basique, économise la VRAM
- • 8K tokens : bon compromis (défaut Ollama)
- • 32K tokens : documents longs, ajoute ~4-8 Go de VRAM
- • Règle : chaque doublement ≈ +2 Go de VRAM
Batch processing
- • Utilisez l'API Ollama pour traiter des fichiers en lot
- • curl http://localhost:11434/api/generate -d '{"model":"hermes4:14b","prompt":"..."}'
- • Combinez avec un script Python pour traiter des centaines de fichiers automatiquement
🎮 Quel Hermes pour moi ? (configurateur)
Sélectionnez votre GPU et votre usage, on vous recommande le meilleur modèle Hermes avec la commande à copier.
✓ Notre recommandation
🚧 Dépannage rapide
Le modèle ne tient pas en VRAM. Solutions : 1) Choisir un modèle plus petit ou plus quantizé (Q4). 2) Fermer les applications qui utilisent le GPU (jeux, navigateur). 3) Augmenter le GPU offloading vers le CPU.
Redémarrez votre terminal. Sous Windows, redémarrez le PC. Sous Linux, vérifiez que /usr/local/bin/ollama existe.
Ajoutez dans votre Modelfile : SYSTEM "Tu réponds TOUJOURS en français, quoi qu'il arrive." et recréez le modèle avec ollama create.
Le modèle tourne probablement sur CPU. Vérifiez que vos drivers NVIDIA/CUDA sont installés : nvidia-smi. Si la commande n'est pas trouvée, installez les drivers NVIDIA.
Questions fréquentes
Liens et ressources
Tous les modèles Hermes en open source
Indispensable pour faire tourner Hermes en local
Articles associés
Prêt à installer Hermes ?
Deux commandes suffisent. Votre IA locale, privée et illimitée, en moins de 5 minutes.