Accueil Blog Hermes Agent Architecture
🤖 Architecture deep-dive

Hermes Agent : l'architecture complète qui transforme un LLM en agent autonome

Hermes n'est PAS un modèle. C'est un système d'exploitation pour agents IA. Voici ses 6 couches, décryptées.

Par l'équipe OutilsIA avril 2026 25 min de lecture

« Tout le monde parle de « modèles IA ». Hermes 3, Llama 3, Mistral, Qwen... Mais un modèle seul, c'est un cerveau dans un bocal. Sans bras, sans yeux, sans mémoire. Nous Research a compris ça et a construit quelque chose de radicalement différent : un système d'exploitation complet pour transformer ce cerveau en agent autonome. »

Quand vous lancez ollama run hermes3, vous n'utilisez que 5% de ce que Hermes peut faire. Le vrai Hermes, c'est un écosystème de 6 couches qui va de l'interface utilisateur jusqu'aux couches de sécurité, en passant par 40+ outils natifs et un système de sub-agents unique en son genre.

Dans cet article, on va démonter la machine pièce par pièce. Pas de marketing, pas de buzzwords. Juste l'architecture technique, expliquée clairement, avec le code qui va avec.

Si vous avez lu notre guide d'installation de Hermes ou notre comparatif Hermes vs Claude Code, cet article est la suite logique. On passe de « comment l'installer » à « comment il fonctionne ».

🏗 L'architecture 6 couches : vue d'ensemble

Avant de plonger dans le détail, voici la carte complète. Cliquez sur chaque couche pour explorer ses composants.

☝ Cliquez sur chaque couche pour explorer ses composants en détail

🖥 Couche 1 — Interface (A2IR)

A2IR signifie Agent-to-Interface Runtime. C'est l'abstraction qui permet à Hermes de recevoir des instructions depuis n'importe quelle source — pas juste un terminal.

⌨ CLI (par défaut)

Interface terminal riche avec autocompletion, historique, et support multi-lignes. Le mode par défaut pour les développeurs.

hermes-agent --model hermes3:70b

💬 Telegram / Discord / Slack

Bots natifs pour chaque plateforme. Votre agent devient joignable par message, comme un collègue. Support des threads et des fichiers.

hermes-agent --interface telegram

💻 Extension VS Code

Intégration directe dans l'éditeur. L'agent voit votre code, comprend votre projet, et peut éditer directement. Comme Copilot, mais en local.

🚀 Batch Runner

Lancez des centaines de tâches en séquence ou en parallèle. Idéal pour le traitement de données, la génération de contenu, ou le testing massif.

🧠 RL Training Interface

Interface spécifique pour le reinforcement learning. L'agent exécute des tâches, reçoit des récompenses, et s'améliore. Les trajectoires sont sauvegardées pour le fine-tuning. C'est ainsi que Nous Research entraîne les prochaines versions de Hermes — et vous pouvez faire pareil sur vos propres tâches.

💡 Pourquoi c'est révolutionnaire : aucun autre framework d'agents IA ne propose nativement autant d'interfaces. CrewAI ? CLI uniquement. AutoGen ? CLI + API. LangGraph ? API. Hermes, c'est CLI + 3 messageries + IDE + batch + RL. C'est un vrai OS.

🧠 Couche 2 — AIAgent (le Cerveau)

Le fichier run_agent.py est le chef d'orchestre. Il implémente la boucle perception → décision → action qui fait de Hermes un agent et non un simple chatbot.

🔄 La boucle agent

# Pseudo-code simplifié de run_agent.py
while budget_remaining > 0:
1. percevoir ← lire message utilisateur + contexte
2. décider ← appeler LLM avec prompt + historique + outils
3. agir ← exécuter l'outil choisi par le LLM
4. observer ← récupérer le résultat
5. mettre à jour ← ajouter à l'historique, décrémenter budget
6. répondre si tâche terminée, sinon → étape 1

Contrôle du budget

Le budget controller est une innovation cruciale. Il empêche l'agent de tourner en boucle infinie en lui attribuant un « budget » en tokens. Chaque appel au LLM coûte des tokens. Quand le budget est épuisé, l'agent doit conclure avec ce qu'il a. Cela force l'agent à être efficace.

8K
Budget « rapide »
Questions simples
32K
Budget « standard »
Développement, recherche
128K
Budget « illimité »
Projets complexes, RL

⚙ Couche 3 — Infrastructure

La couche infrastructure est le middleware invisible entre le cerveau et les outils. Sans elle, l'agent serait lent, oublierait tout, et saturerait sa fenêtre de contexte en 3 échanges.

📜 Prompt Builder

Assemble dynamiquement le prompt système en fonction du contexte : quels outils sont activés, quel est l'historique, quelle est la tâche, quelles sont les contraintes de sécurité. Le prompt n'est jamais statique.

prompt = system_prompt + tool_definitions + compressed_history + security_rules

🗜 Context Compressor

Quand la conversation dépasse la fenêtre de contexte, le compresseur résume les échanges anciens en gardant les informations critiques. Résultat : l'agent peut travailler sur des sessions de plusieurs heures sans perdre le fil.

⚡ Cache KV

Cache du key-value store du LLM. Les préfixes de prompts identiques ne sont pas recalculés. Gain de vitesse : 2× à 5× sur les conversations longues.

🤖 Client LLM Auxiliaire

Un second modèle (souvent plus petit, ex: Hermes 3 8B) gère les tâches « méta » : classification des intentions, validation de sécurité, résumé de contexte. Cela évite de gaspiller le budget du modèle principal sur des tâches triviales.

💾 Trajectory Saver

Enregistre chaque action de l'agent : quel outil a été choisi, quel prompt a été envoyé, quel résultat a été obtenu, combien de temps ça a pris. Ces trajectoires servent au débogage, à l'analyse de performance, et surtout au reinforcement learning.

🔧 Couche 4 — Les Outils (40+)

C'est ici que Hermes écrase la concurrence. Plus de 40 outils natifs, organisés en catégories, chacun avec une interface standardisée. L'agent ne fait pas que parler — il agit.

Terminal

Exécution de commandes shell avec sandboxing. L'agent peut naviguer le système de fichiers, installer des paquets, lancer des scripts.

File Manager

Lecture, écriture, création, suppression de fichiers. Support des encodages, des gros fichiers, et de la navigation récursive.

Patch Tool

Application de diffs sur des fichiers existants. Plus précis que la réécriture complète — l'agent modifie chirurgicalement le code.

Process Manager

Gestion des processus : lancer, arrêter, surveiller. L'agent peut démarrer un serveur et vérifier qu'il tourne.

Code Executor

Exécution de code Python, JavaScript, Bash dans un environnement sandboxé. Résultat retourné à l'agent en temps réel.

Git Integration

Gestion de repos Git : commits, branches, diffs, PR. L'agent peut travailler sur un projet comme un développeur.

Linter & Formatter

Vérification automatique de la qualité du code généré. L'agent corrige ses propres erreurs avant de vous présenter le résultat.

Test Runner

Exécution de tests unitaires et d'intégration. L'agent écrit du code, le teste, et corrige les bugs en boucle.

⭐ Sub-Agent

L'outil le plus puissant. Crée un agent enfant avec son propre contexte, ses outils, et son budget. Détails ci-dessous.

MCP Client

Client du Model Context Protocol. Connecte Hermes à n'importe quel serveur MCP : bases de données, APIs, services tiers.

Skills Hub

Bibliothèque de compétences pré-définies. L'agent peut charger un « skill » (ex: « analyste financier ») qui modifie son comportement et ses outils disponibles.

Memory (court/long terme)

Mémoire persistante. L'agent se souvient de vos préférences, de vos projets, de vos conversations passées. Stockée en local, vectorisée pour la recherche.

Web Search

Recherche web via DuckDuckGo, SearXNG, ou API personnalisée. L'agent peut vérifier des faits et trouver des informations fraîches.

arXiv Search

Recherche spécialisée dans les publications scientifiques. L'agent peut résumer des papers et extraire des données techniques.

RAG Local

Recherche dans vos documents locaux via embeddings. Connectez vos PDF, notes, code, et l'agent les interroge. Voir notre guide RAG local.

Wikipedia / Documentation

Accès direct aux bases de connaissances. L'agent peut consulter Wikipedia, les docs Python, MDN, Stack Overflow.

Home Assistant

Contrôle domotique. L'agent pilote vos lumières, thermostats, capteurs. « Allume le salon et mets le chauffage à 21° ».

TTS (Text-to-Speech)

Synthèse vocale locale. L'agent peut « parler ». Utile pour les assistants vocaux et l'accessibilité.

Image Generation

Génération d'images via Stable Diffusion local ou API. L'agent peut créer des visuels pendant ses tâches.

Email / Notification

Envoi d'emails et de notifications. L'agent termine une tâche et vous prévient automatiquement.

👥 Focus : le Sub-Agent, l'arme secrète

Le sub-agent est l'outil le plus innovant de Hermes. C'est ce qui différencie un « agent avec des outils » d'un système multi-agent natif.

🔄 Comment ça fonctionne

1
L'agent parent identifie une sous-tâche

Ex: « Pour répondre à cette question, j'ai besoin de rechercher 3 papers sur arXiv et de les résumer ».

2
Il invoque l'outil Sub-Agent

Il définit la tâche, les outils autorisés (ex: arXiv + Web Search), et le budget du sub-agent (ex: 4K tokens).

3
Le sub-agent s'exécute de façon autonome

Il a son propre contexte, ses propres outils, sa propre boucle agent. Il ne pollue pas le contexte du parent.

4
Le résultat remonte au parent

Le sub-agent renvoie un résumé compressé de ses résultats. Le parent intègre ça dans sa réflexion et continue.

🎯 Cas d'usage concret : audit de codebase

# L'agent parent reçoit : « Audite la sécurité de ce projet »
Agent Parent → analyse la structure du projet
  ↳ Sub-Agent 1 : scanner les dépendances (npm audit)
  ↳ Sub-Agent 2 : analyser les patterns SQL (injection)
  ↳ Sub-Agent 3 : vérifier les secrets dans le code
3 sub-agents en parallèle → résultats agrégés
Agent Parent → synthèse + rapport final

Résultat : un audit complet en 2 minutes au lieu de 15, sans saturer le contexte de l'agent principal. Lisez aussi nos 25 cas d'usage concrets.

☁ Couche 5 — Backends

Où tourne le calcul ? Hermes est agnostique au backend. L'agent ne sait pas (et ne se soucie pas) si son LLM tourne sur votre RTX 4090 ou dans un cluster cloud.

Backend Type Idéal pour Latence
GPU Local (Ollama/vLLM) Local Usage quotidien, vie privée Très faible
Docker Local isolé Sécurité, reproductibilité Faible
SSH Remote Distant GPU puissant à distance Moyenne
Modal Cloud serverless Pics de charge, gros modèles Moyenne
Daytona Cloud dédié Environnements de dév complets Moyenne
Singularity HPC Clusters universitaires, recherche Variable
SessionDB Persistance Sessions longues, reprise Faible

🔒 Couche 6 — Sécurité (4 niveaux de défense)

Un agent IA autonome avec accès au terminal, c'est une bombe à retardement si c'est mal sécurisé. Hermes a la meilleure architecture de sécurité de tous les frameworks d'agents open-source.

NIVEAU 1

Analyse pré-exécution

Chaque commande est analysée avant exécution. Détection de patterns dangereux : rm -rf /, curl | bash, chmod 777, accès à des répertoires sensibles. La commande est bloquée et l'agent est notifié.

NIVEAU 2

Limites de capacités

Chaque outil a des limites configurées : le terminal ne peut pas accéder à certains répertoires, le file manager a un quota de taille, le code executor a un timeout. Même si un outil est autorisé, ses capacités sont restreintes.

NIVEAU 3

LLM de sécurité auxiliaire

Pour les actions critiques, un second LLM (plus petit et plus rapide) analyse l'action proposée et décide si elle est sûre. C'est un « garde du corps » indépendant du modèle principal. Il ne peut pas être manipulé par un prompt injection ciblant l'agent principal.

NIVEAU 4

Whitelist / Blacklist

Configuration utilisateur. Vous définissez exactement quels répertoires sont accessibles, quelles commandes sont autorisées, quels domaines peuvent être contactés. C'est le dernier filet de sécurité — entièrement sous votre contrôle.

# config/security.yaml
whitelist_dirs: ["/home/user/projects"]
blacklist_cmds: ["rm -rf", "dd if=", "mkfs"]
allowed_domains: ["github.com", "arxiv.org"]

⚖ Hermes Agent vs CrewAI vs AutoGen vs LangGraph

On compare les 4 frameworks d'agents IA les plus populaires. Le tableau parle de lui-même.

Fonctionnalité Hermes Agent CrewAI AutoGen LangGraph
Outils natifs 40+ ~15 ~10 ~8
Sub-Agents natifs Partiel
Sécurité (couches) 4 0 1 1
Messageries (TG/Discord/Slack) ✔ natif
Intégration IDE (VS Code)
Mode Batch Partiel
RL Training natif
MCP Client Partiel
Backends cloud/HPC 7 backends API only API only API only
100% local possible Partiel Partiel
Licence Apache 2.0 MIT MIT MIT

💡 Verdict : CrewAI et AutoGen sont des frameworks d'orchestration. LangGraph est un framework de graphes. Hermes Agent est un système d'exploitation pour agents IA. Ce n'est pas la même catégorie. Si vous cherchez un comparatif plus poussé avec Claude Code, lisez notre Hermes vs Claude Code.

Pour approfondir le sujet des agents autonomes en général, consultez notre guide complet des agents IA autonomes en local. Et si les travaux de Karpathy sur l'auto-recherche vous intéressent, ne manquez pas notre article sur AutoResearch.

💻 Matériel recommandé pour Hermes Agent

L'architecture de Hermes est modulaire, mais votre GPU détermine ce que vous pouvez faire. Voici nos recommandations par niveau. Consultez aussi notre guide du meilleur GPU pour l'IA locale et notre outil Mon PC peut-il faire tourner l'IA ?

ENTRÉE

Hermes 3 8B — Agent simple

Suffisant pour les tâches simples : scripting, recherche, automatisation basique. Modèle 8B en Q4 = ~5 Go de VRAM.

RECOMMANDÉ

Hermes 3 70B Q4 — Agent complet

L'expérience complète : sub-agents, outils avancés, RL training. Modèle 70B en Q4 = ~40 Go de VRAM. Nécessite multi-GPU ou un GPU haut de gamme.

PRO

Multi-agent / RL intensif

Pour les équipes, la recherche, ou les déploiements production. Plusieurs agents en parallèle, fine-tuning, trajectoires massives.

🔗 Les liens Amazon sont des liens affiliés. Ils nous aident à financer OutilsIA sans coût supplémentaire pour vous.

🚀 Installation rapide de Hermes Agent

Voici la procédure condensée. Pour le guide détaillé avec dépannage, lisez notre guide d'installation complet.

1

Étape 1 : Installer Ollama

curl -fsSL https://ollama.com/install.sh | sh
ollama pull hermes3:8b
2

Étape 2 : Cloner Hermes Agent

git clone https://github.com/NousResearch/hermes-agent.git
cd hermes-agent
pip install -e .
3

Étape 3 : Configurer et lancer

# Configurer le modèle et les outils
cp config/default.yaml config/my_config.yaml
nano config/my_config.yaml
# Lancer l'agent
hermes-agent --config config/my_config.yaml
4

Étape 4 : Tester

# Demander à l'agent d'utiliser ses outils
> Crée un fichier Python qui scrape les 5 derniers
> articles de Hacker News et sauvegarde-les en JSON.
# L'agent va : terminal, code exec, file write
# Tout seul. Sans intervention.

🎯 Hermes dans l'écosystème IA : la vision de Nous Research

Nous Research ne construit pas « un autre chatbot ». Leur vision est de créer un écosystème complet d'agents IA open-source qui rivalise avec les solutions fermées (OpenAI, Anthropic, Google).

🗺 La feuille de route

Hermes 3 — Modèle fine-tuné pour le function calling (fait)
Agent Runtime — Architecture 6 couches (fait)
Skills Hub — Place de marché de compétences (fait)
RL at Scale — Amélioration continue via trajectoires (en cours)
Agent Marketplace — Partage d'agents pré-configurés (planifié)
Multi-model Routing — Basculer entre modèles selon la tâche (planifié)

Pour comprendre comment ces agents s'intègrent dans une stratégie de trading automatisé, visitez Strategy Arena — notre plateforme de backtesting de stratégies pilotées par IA.

🗺 Schéma récapitulatif

┌─────────────────────────────────────────────────┐
 🖥 COUCHE 1 — INTERFACE (A2IR)
 CLI | Telegram | Discord | Slack | VS Code | Batch | RL
├─────────────────────────────────────────────────┤
 🧠 COUCHE 2 — AIAGENT (CERVEAU)
 run_agent.py | budget | conversation | décision loop
├─────────────────────────────────────────────────┤
 ⚙ COUCHE 3 — INFRASTRUCTURE
 prompt builder | compressor | cache | aux LLM | trajectoire
├─────────────────────────────────────────────────┤
 🔧 COUCHE 4 — OUTILS (40+)
 Terminal | Code | File | Patch | Sub-Agent | MCP | Memory
├─────────────────────────────────────────────────┤
 ☁ COUCHE 5 — BACKENDS
 GPU Local | Docker | SSH | Modal | Daytona | Singularity
├─────────────────────────────────────────────────┤
 🔒 COUCHE 6 — SÉCURITÉ
 Pré-exec | Capacités | LLM Safety | Whitelist/Blacklist
└─────────────────────────────────────────────────┘

💡 Pourquoi cette architecture change tout

🔓 Open-source complet

Chaque couche est modifiable. Vous pouvez remplacer le LLM, ajouter des outils, changer le backend. Aucun vendor lock-in.

🏠 100% local possible

Aucune donnée ne quitte votre machine. Pas de cloud, pas d'API payante, pas de latence réseau. Vie privée totale.

🛠 Extensible à l'infini

Créer un nouvel outil = 1 fichier Python. L'architecture plugin-based permet d'ajouter des capacités sans toucher au cœur.

📈 Auto-amélioration

Grâce au trajectory saver et au RL training, l'agent s'améliore avec l'usage. Plus vous l'utilisez, meilleur il devient.

💡 Le point clé à retenir : la plupart des gens pensent que la qualité d'un agent IA dépend uniquement du modèle. C'est faux. Un Hermes 3 8B dans l'architecture complète bat un GPT-4 dans un chatbot basique sur les tâches agentiques. L'architecture compte autant que le modèle.

Conclusion : l'avenir des agents IA est open-source

Hermes Agent par Nous Research représente la réponse open-source la plus complète à la question « comment transformer un LLM en agent autonome ? ». Avec ses 6 couches, ses 40+ outils, son système de sub-agents, et ses 4 niveaux de sécurité, c'est un véritable système d'exploitation pour l'intelligence artificielle.

Le futur n'est plus « quel modèle est le meilleur ? » mais « quelle architecture est la meilleure ? ». Et pour l'instant, Hermes a une longueur d'avance.

🚀 Prochaines étapes

❓ Questions fréquentes

Hermes Agent est un système d'exploitation complet pour agents IA créé par Nous Research. Ce n'est pas un simple modèle LLM : c'est une architecture 6 couches qui transforme n'importe quel LLM en agent autonome capable d'utiliser plus de 40 outils, de lancer des sub-agents, et de s'auto-sécuriser via 4 niveaux de défense.

Hermes Agent est un système complet (OS d'agent) tandis que CrewAI et AutoGen sont des frameworks d'orchestration. Hermes inclut nativement 40+ outils, un système de sub-agents, une intégration IDE (VS Code), un mode batch, du reinforcement learning, et 4 couches de sécurité — des fonctionnalités absentes ou partielles chez les concurrents.

Le minimum recommandé est une RTX 3060 12 Go pour le modèle 8B. Pour une expérience optimale avec le modèle 70B et les sub-agents, une RTX 4090 24 Go ou deux RTX 3090 sont idéales. L'architecture supporte aussi les backends cloud (Modal, Daytona) pour déporter le calcul.

L'agent principal peut invoquer l'outil Sub-Agent pour créer un agent enfant avec son propre contexte, ses propres outils, et son propre budget de tokens. Le sub-agent exécute sa tâche de façon autonome et renvoie ses résultats au parent. Cela permet de paralléliser des tâches complexes sans polluer le contexte principal.

Hermes Agent dispose de 4 couches de sécurité : analyse pré-exécution des commandes, limites de capacités par outil, validation par un LLM de sécurité auxiliaire, et système de whitelist/blacklist. C'est l'un des frameworks d'agents IA les plus sécurisés disponibles en open-source.

Oui. L'architecture Hermes Agent est agnostique au modèle. Vous pouvez utiliser n'importe quel LLM compatible via Ollama, vLLM, ou une API OpenAI-compatible. Cependant, Hermes 3 est optimisé pour le function calling et le tool use, ce qui en fait le choix idéal pour cette architecture.