Hermes Agent : l'architecture complète qui transforme un LLM en agent autonome
Hermes n'est PAS un modèle. C'est un système d'exploitation pour agents IA. Voici ses 6 couches, décryptées.
« Tout le monde parle de « modèles IA ». Hermes 3, Llama 3, Mistral, Qwen... Mais un modèle seul, c'est un cerveau dans un bocal. Sans bras, sans yeux, sans mémoire. Nous Research a compris ça et a construit quelque chose de radicalement différent : un système d'exploitation complet pour transformer ce cerveau en agent autonome. »
Quand vous lancez ollama run hermes3, vous n'utilisez que 5% de ce que Hermes peut faire. Le vrai Hermes, c'est un écosystème de 6 couches qui va de l'interface utilisateur jusqu'aux couches de sécurité, en passant par 40+ outils natifs et un système de sub-agents unique en son genre.
Dans cet article, on va démonter la machine pièce par pièce. Pas de marketing, pas de buzzwords. Juste l'architecture technique, expliquée clairement, avec le code qui va avec.
Si vous avez lu notre guide d'installation de Hermes ou notre comparatif Hermes vs Claude Code, cet article est la suite logique. On passe de « comment l'installer » à « comment il fonctionne ».
🏗 L'architecture 6 couches : vue d'ensemble
Avant de plonger dans le détail, voici la carte complète. Cliquez sur chaque couche pour explorer ses composants.
🖥 Couche 1 — Interface (A2IR)
A2IR signifie Agent-to-Interface Runtime. C'est l'abstraction qui permet à Hermes de recevoir des instructions depuis n'importe quelle source — pas juste un terminal.
⌨ CLI (par défaut)
Interface terminal riche avec autocompletion, historique, et support multi-lignes. Le mode par défaut pour les développeurs.
hermes-agent --model hermes3:70b
💬 Telegram / Discord / Slack
Bots natifs pour chaque plateforme. Votre agent devient joignable par message, comme un collègue. Support des threads et des fichiers.
hermes-agent --interface telegram
💻 Extension VS Code
Intégration directe dans l'éditeur. L'agent voit votre code, comprend votre projet, et peut éditer directement. Comme Copilot, mais en local.
🚀 Batch Runner
Lancez des centaines de tâches en séquence ou en parallèle. Idéal pour le traitement de données, la génération de contenu, ou le testing massif.
🧠 RL Training Interface
Interface spécifique pour le reinforcement learning. L'agent exécute des tâches, reçoit des récompenses, et s'améliore. Les trajectoires sont sauvegardées pour le fine-tuning. C'est ainsi que Nous Research entraîne les prochaines versions de Hermes — et vous pouvez faire pareil sur vos propres tâches.
💡 Pourquoi c'est révolutionnaire : aucun autre framework d'agents IA ne propose nativement autant d'interfaces. CrewAI ? CLI uniquement. AutoGen ? CLI + API. LangGraph ? API. Hermes, c'est CLI + 3 messageries + IDE + batch + RL. C'est un vrai OS.
🧠 Couche 2 — AIAgent (le Cerveau)
Le fichier run_agent.py est le chef d'orchestre. Il implémente la boucle perception → décision → action qui fait de Hermes un agent et non un simple chatbot.
🔄 La boucle agent
Contrôle du budget
Le budget controller est une innovation cruciale. Il empêche l'agent de tourner en boucle infinie en lui attribuant un « budget » en tokens. Chaque appel au LLM coûte des tokens. Quand le budget est épuisé, l'agent doit conclure avec ce qu'il a. Cela force l'agent à être efficace.
⚙ Couche 3 — Infrastructure
La couche infrastructure est le middleware invisible entre le cerveau et les outils. Sans elle, l'agent serait lent, oublierait tout, et saturerait sa fenêtre de contexte en 3 échanges.
📜 Prompt Builder
Assemble dynamiquement le prompt système en fonction du contexte : quels outils sont activés, quel est l'historique, quelle est la tâche, quelles sont les contraintes de sécurité. Le prompt n'est jamais statique.
🗜 Context Compressor
Quand la conversation dépasse la fenêtre de contexte, le compresseur résume les échanges anciens en gardant les informations critiques. Résultat : l'agent peut travailler sur des sessions de plusieurs heures sans perdre le fil.
⚡ Cache KV
Cache du key-value store du LLM. Les préfixes de prompts identiques ne sont pas recalculés. Gain de vitesse : 2× à 5× sur les conversations longues.
🤖 Client LLM Auxiliaire
Un second modèle (souvent plus petit, ex: Hermes 3 8B) gère les tâches « méta » : classification des intentions, validation de sécurité, résumé de contexte. Cela évite de gaspiller le budget du modèle principal sur des tâches triviales.
💾 Trajectory Saver
Enregistre chaque action de l'agent : quel outil a été choisi, quel prompt a été envoyé, quel résultat a été obtenu, combien de temps ça a pris. Ces trajectoires servent au débogage, à l'analyse de performance, et surtout au reinforcement learning.
🔧 Couche 4 — Les Outils (40+)
C'est ici que Hermes écrase la concurrence. Plus de 40 outils natifs, organisés en catégories, chacun avec une interface standardisée. L'agent ne fait pas que parler — il agit.
Terminal
Exécution de commandes shell avec sandboxing. L'agent peut naviguer le système de fichiers, installer des paquets, lancer des scripts.
File Manager
Lecture, écriture, création, suppression de fichiers. Support des encodages, des gros fichiers, et de la navigation récursive.
Patch Tool
Application de diffs sur des fichiers existants. Plus précis que la réécriture complète — l'agent modifie chirurgicalement le code.
Process Manager
Gestion des processus : lancer, arrêter, surveiller. L'agent peut démarrer un serveur et vérifier qu'il tourne.
Code Executor
Exécution de code Python, JavaScript, Bash dans un environnement sandboxé. Résultat retourné à l'agent en temps réel.
Git Integration
Gestion de repos Git : commits, branches, diffs, PR. L'agent peut travailler sur un projet comme un développeur.
Linter & Formatter
Vérification automatique de la qualité du code généré. L'agent corrige ses propres erreurs avant de vous présenter le résultat.
Test Runner
Exécution de tests unitaires et d'intégration. L'agent écrit du code, le teste, et corrige les bugs en boucle.
⭐ Sub-Agent
L'outil le plus puissant. Crée un agent enfant avec son propre contexte, ses outils, et son budget. Détails ci-dessous.
MCP Client
Client du Model Context Protocol. Connecte Hermes à n'importe quel serveur MCP : bases de données, APIs, services tiers.
Skills Hub
Bibliothèque de compétences pré-définies. L'agent peut charger un « skill » (ex: « analyste financier ») qui modifie son comportement et ses outils disponibles.
Memory (court/long terme)
Mémoire persistante. L'agent se souvient de vos préférences, de vos projets, de vos conversations passées. Stockée en local, vectorisée pour la recherche.
Web Search
Recherche web via DuckDuckGo, SearXNG, ou API personnalisée. L'agent peut vérifier des faits et trouver des informations fraîches.
arXiv Search
Recherche spécialisée dans les publications scientifiques. L'agent peut résumer des papers et extraire des données techniques.
RAG Local
Recherche dans vos documents locaux via embeddings. Connectez vos PDF, notes, code, et l'agent les interroge. Voir notre guide RAG local.
Wikipedia / Documentation
Accès direct aux bases de connaissances. L'agent peut consulter Wikipedia, les docs Python, MDN, Stack Overflow.
Home Assistant
Contrôle domotique. L'agent pilote vos lumières, thermostats, capteurs. « Allume le salon et mets le chauffage à 21° ».
TTS (Text-to-Speech)
Synthèse vocale locale. L'agent peut « parler ». Utile pour les assistants vocaux et l'accessibilité.
Image Generation
Génération d'images via Stable Diffusion local ou API. L'agent peut créer des visuels pendant ses tâches.
Email / Notification
Envoi d'emails et de notifications. L'agent termine une tâche et vous prévient automatiquement.
👥 Focus : le Sub-Agent, l'arme secrète
Le sub-agent est l'outil le plus innovant de Hermes. C'est ce qui différencie un « agent avec des outils » d'un système multi-agent natif.
🔄 Comment ça fonctionne
L'agent parent identifie une sous-tâche
Ex: « Pour répondre à cette question, j'ai besoin de rechercher 3 papers sur arXiv et de les résumer ».
Il invoque l'outil Sub-Agent
Il définit la tâche, les outils autorisés (ex: arXiv + Web Search), et le budget du sub-agent (ex: 4K tokens).
Le sub-agent s'exécute de façon autonome
Il a son propre contexte, ses propres outils, sa propre boucle agent. Il ne pollue pas le contexte du parent.
Le résultat remonte au parent
Le sub-agent renvoie un résumé compressé de ses résultats. Le parent intègre ça dans sa réflexion et continue.
🎯 Cas d'usage concret : audit de codebase
Résultat : un audit complet en 2 minutes au lieu de 15, sans saturer le contexte de l'agent principal. Lisez aussi nos 25 cas d'usage concrets.
☁ Couche 5 — Backends
Où tourne le calcul ? Hermes est agnostique au backend. L'agent ne sait pas (et ne se soucie pas) si son LLM tourne sur votre RTX 4090 ou dans un cluster cloud.
| Backend | Type | Idéal pour | Latence |
|---|---|---|---|
| GPU Local (Ollama/vLLM) | Local | Usage quotidien, vie privée | Très faible |
| Docker | Local isolé | Sécurité, reproductibilité | Faible |
| SSH Remote | Distant | GPU puissant à distance | Moyenne |
| Modal | Cloud serverless | Pics de charge, gros modèles | Moyenne |
| Daytona | Cloud dédié | Environnements de dév complets | Moyenne |
| Singularity | HPC | Clusters universitaires, recherche | Variable |
| SessionDB | Persistance | Sessions longues, reprise | Faible |
🔒 Couche 6 — Sécurité (4 niveaux de défense)
Un agent IA autonome avec accès au terminal, c'est une bombe à retardement si c'est mal sécurisé. Hermes a la meilleure architecture de sécurité de tous les frameworks d'agents open-source.
Analyse pré-exécution
Chaque commande est analysée avant exécution. Détection de patterns dangereux : rm -rf /, curl | bash, chmod 777, accès à des répertoires sensibles. La commande est bloquée et l'agent est notifié.
Limites de capacités
Chaque outil a des limites configurées : le terminal ne peut pas accéder à certains répertoires, le file manager a un quota de taille, le code executor a un timeout. Même si un outil est autorisé, ses capacités sont restreintes.
LLM de sécurité auxiliaire
Pour les actions critiques, un second LLM (plus petit et plus rapide) analyse l'action proposée et décide si elle est sûre. C'est un « garde du corps » indépendant du modèle principal. Il ne peut pas être manipulé par un prompt injection ciblant l'agent principal.
Whitelist / Blacklist
Configuration utilisateur. Vous définissez exactement quels répertoires sont accessibles, quelles commandes sont autorisées, quels domaines peuvent être contactés. C'est le dernier filet de sécurité — entièrement sous votre contrôle.
⚖ Hermes Agent vs CrewAI vs AutoGen vs LangGraph
On compare les 4 frameworks d'agents IA les plus populaires. Le tableau parle de lui-même.
| Fonctionnalité | Hermes Agent | CrewAI | AutoGen | LangGraph |
|---|---|---|---|---|
| Outils natifs | 40+ | ~15 | ~10 | ~8 |
| Sub-Agents natifs | ✔ | Partiel | ✔ | ✘ |
| Sécurité (couches) | 4 | 0 | 1 | 1 |
| Messageries (TG/Discord/Slack) | ✔ natif | ✘ | ✘ | ✘ |
| Intégration IDE (VS Code) | ✔ | ✘ | ✘ | ✘ |
| Mode Batch | ✔ | Partiel | ✘ | ✘ |
| RL Training natif | ✔ | ✘ | ✘ | ✘ |
| MCP Client | ✔ | ✘ | ✘ | Partiel |
| Backends cloud/HPC | 7 backends | API only | API only | API only |
| 100% local possible | ✔ | Partiel | Partiel | ✘ |
| Licence | Apache 2.0 | MIT | MIT | MIT |
💡 Verdict : CrewAI et AutoGen sont des frameworks d'orchestration. LangGraph est un framework de graphes. Hermes Agent est un système d'exploitation pour agents IA. Ce n'est pas la même catégorie. Si vous cherchez un comparatif plus poussé avec Claude Code, lisez notre Hermes vs Claude Code.
Pour approfondir le sujet des agents autonomes en général, consultez notre guide complet des agents IA autonomes en local. Et si les travaux de Karpathy sur l'auto-recherche vous intéressent, ne manquez pas notre article sur AutoResearch.
💻 Matériel recommandé pour Hermes Agent
L'architecture de Hermes est modulaire, mais votre GPU détermine ce que vous pouvez faire. Voici nos recommandations par niveau. Consultez aussi notre guide du meilleur GPU pour l'IA locale et notre outil Mon PC peut-il faire tourner l'IA ?
Hermes 3 8B — Agent simple
Suffisant pour les tâches simples : scripting, recherche, automatisation basique. Modèle 8B en Q4 = ~5 Go de VRAM.
Hermes 3 70B Q4 — Agent complet
L'expérience complète : sub-agents, outils avancés, RL training. Modèle 70B en Q4 = ~40 Go de VRAM. Nécessite multi-GPU ou un GPU haut de gamme.
Multi-agent / RL intensif
Pour les équipes, la recherche, ou les déploiements production. Plusieurs agents en parallèle, fine-tuning, trajectoires massives.
🔗 Les liens Amazon sont des liens affiliés. Ils nous aident à financer OutilsIA sans coût supplémentaire pour vous.
🚀 Installation rapide de Hermes Agent
Voici la procédure condensée. Pour le guide détaillé avec dépannage, lisez notre guide d'installation complet.
Étape 1 : Installer Ollama
Étape 2 : Cloner Hermes Agent
Étape 3 : Configurer et lancer
Étape 4 : Tester
🎯 Hermes dans l'écosystème IA : la vision de Nous Research
Nous Research ne construit pas « un autre chatbot ». Leur vision est de créer un écosystème complet d'agents IA open-source qui rivalise avec les solutions fermées (OpenAI, Anthropic, Google).
🗺 La feuille de route
Pour comprendre comment ces agents s'intègrent dans une stratégie de trading automatisé, visitez Strategy Arena — notre plateforme de backtesting de stratégies pilotées par IA.
🗺 Schéma récapitulatif
💡 Pourquoi cette architecture change tout
🔓 Open-source complet
Chaque couche est modifiable. Vous pouvez remplacer le LLM, ajouter des outils, changer le backend. Aucun vendor lock-in.
🏠 100% local possible
Aucune donnée ne quitte votre machine. Pas de cloud, pas d'API payante, pas de latence réseau. Vie privée totale.
🛠 Extensible à l'infini
Créer un nouvel outil = 1 fichier Python. L'architecture plugin-based permet d'ajouter des capacités sans toucher au cœur.
📈 Auto-amélioration
Grâce au trajectory saver et au RL training, l'agent s'améliore avec l'usage. Plus vous l'utilisez, meilleur il devient.
💡 Le point clé à retenir : la plupart des gens pensent que la qualité d'un agent IA dépend uniquement du modèle. C'est faux. Un Hermes 3 8B dans l'architecture complète bat un GPT-4 dans un chatbot basique sur les tâches agentiques. L'architecture compte autant que le modèle.
Conclusion : l'avenir des agents IA est open-source
Hermes Agent par Nous Research représente la réponse open-source la plus complète à la question « comment transformer un LLM en agent autonome ? ». Avec ses 6 couches, ses 40+ outils, son système de sub-agents, et ses 4 niveaux de sécurité, c'est un véritable système d'exploitation pour l'intelligence artificielle.
Le futur n'est plus « quel modèle est le meilleur ? » mais « quelle architecture est la meilleure ? ». Et pour l'instant, Hermes a une longueur d'avance.
🚀 Prochaines étapes
- ▶ Installer Hermes Agent — guide pas-à-pas
- ▶ Hermes vs Claude Code — peut-il remplacer les solutions payantes ?
- ▶ 25 applications concrètes — que faire avec Hermes aujourd'hui
- ▶ Guide des agents IA autonomes — le panorama complet
- ▶ Karpathy AutoResearch — la recherche automatisée par IA
- ▶ Meilleur GPU pour l'IA locale — quel matériel choisir
- ▶ Mon PC peut-il faire tourner l'IA ? — testez votre config
❓ Questions fréquentes
Hermes Agent est un système d'exploitation complet pour agents IA créé par Nous Research. Ce n'est pas un simple modèle LLM : c'est une architecture 6 couches qui transforme n'importe quel LLM en agent autonome capable d'utiliser plus de 40 outils, de lancer des sub-agents, et de s'auto-sécuriser via 4 niveaux de défense.
Hermes Agent est un système complet (OS d'agent) tandis que CrewAI et AutoGen sont des frameworks d'orchestration. Hermes inclut nativement 40+ outils, un système de sub-agents, une intégration IDE (VS Code), un mode batch, du reinforcement learning, et 4 couches de sécurité — des fonctionnalités absentes ou partielles chez les concurrents.
Le minimum recommandé est une RTX 3060 12 Go pour le modèle 8B. Pour une expérience optimale avec le modèle 70B et les sub-agents, une RTX 4090 24 Go ou deux RTX 3090 sont idéales. L'architecture supporte aussi les backends cloud (Modal, Daytona) pour déporter le calcul.
L'agent principal peut invoquer l'outil Sub-Agent pour créer un agent enfant avec son propre contexte, ses propres outils, et son propre budget de tokens. Le sub-agent exécute sa tâche de façon autonome et renvoie ses résultats au parent. Cela permet de paralléliser des tâches complexes sans polluer le contexte principal.
Hermes Agent dispose de 4 couches de sécurité : analyse pré-exécution des commandes, limites de capacités par outil, validation par un LLM de sécurité auxiliaire, et système de whitelist/blacklist. C'est l'un des frameworks d'agents IA les plus sécurisés disponibles en open-source.
Oui. L'architecture Hermes Agent est agnostique au modèle. Vous pouvez utiliser n'importe quel LLM compatible via Ollama, vLLM, ou une API OpenAI-compatible. Cependant, Hermes 3 est optimisé pour le function calling et le tool use, ce qui en fait le choix idéal pour cette architecture.