RAG local avec n8n : automatiser votre assistant IA sans code
Construisez un pipeline RAG visuel avec n8n + Ollama, entièrement en local
« Imaginez : vous uploadez vos documents d'entreprise, et 10 minutes plus tard, un chatbot IA répond à toutes les questions de votre équipe — en local, sans cloud, sans code. C'est exactement ce que n8n + Ollama permettent. »
Le RAG (Retrieval-Augmented Generation) est la technique qui permet à une IA de répondre à des questions en s'appuyant sur vos propres documents. Fini les hallucinations — l'IA cite des sources réelles. Et avec n8n, vous pouvez construire tout ça sans écrire une seule ligne de code.
n8n est une plateforme d'automatisation open source, souvent décrite comme le « Zapier auto-hébergé ». En 2026, c'est l'outil no-code le plus discuté sur Reddit pour l'automatisation IA, grâce à ses nœuds natifs pour Ollama, les vector stores et les LLMs.
Dans ce guide, nous allons construire un système RAG complet : de l'installation de n8n à la création d'un assistant IA qui répond à vos questions en se basant sur vos documents. Tout en local, tout gratuit. Si vous voulez comprendre les bases du RAG, consultez d'abord notre guide RAG local avec Ollama.
🧰 Qu'est-ce que n8n ?
n8n (prononcé « n-eight-n ») est un outil d'automatisation de workflows open source. Pensez à Zapier ou Make.com, mais que vous hébergez vous-même. La différence clé : vos données restent chez vous, et il n'y a aucune limite d'exécution.
Visuel
Créez des workflows en glissant-déposant des nœuds. Aucun code nécessaire (mais possible si besoin).
Auto-hébergé
Installez sur votre machine ou serveur. Données privées, pas de cloud, pas de frais mensuels.
IA native
Nœuds intégrés pour Ollama, OpenAI, vector stores, embeddings, RAG complet.
n8n vs Zapier vs Make : pourquoi n8n pour l'IA ?
| Critère | n8n | Zapier | Make |
|---|---|---|---|
| Open source | ✓ | ✗ | ✗ |
| Auto-hébergement | ✓ | ✗ | ✗ |
| Nœuds IA / RAG | ✓ Natif | Limité | Limité |
| Connexion Ollama locale | ✓ | ✗ | ✗ |
| Prix (auto-hébergé) | Gratuit | N/A | N/A |
🛠️ Architecture RAG avec n8n
Avant de construire, comprenons l'architecture. Un système RAG a deux phases :
Phase 1 : Indexation
Préparation de vos documents pour la recherche.
- 1. Charger les documents (PDF, TXT, HTML...)
- 2. Découper en chunks (morceaux)
- 3. Générer les embeddings (vecteurs)
- 4. Stocker dans un vector store
Phase 2 : Requête (Query)
Répondre aux questions avec contexte.
- 1. L'utilisateur pose une question
- 2. Recherche des chunks pertinents
- 3. Injection du contexte dans le prompt
- 4. Le LLM génère une réponse sourcée
Pour une compréhension approfondie du RAG, consultez notre guide RAG local avec Ollama et notre article sur les meilleurs modèles RAG 2026. Pour une approche plus avancée avec des agents, voir notre guide Agentic RAG.
📦 Étape 1 : Installer n8n avec Docker
L'installation la plus simple est via Docker. En 2 commandes, n8n tourne sur votre machine.
Prérequis
- • Docker installé sur votre machine (guide officiel)
- • Ollama installé et fonctionnel (notre guide)
- • 4 Go de RAM disponibles minimum
Installation n8n
L'option --add-host permet à n8n (dans Docker) d'accéder à Ollama (sur l'hôte). Sans ça, la connexion échoue.
Vérification
Créez un compte administrateur lors du premier accès. C'est un compte local — aucune donnée n'est envoyée à n8n.io.
Télécharger les modèles Ollama nécessaires
nomic-embed-text est un modèle d'embeddings léger (274 Mo) mais performant. Il convertit vos textes en vecteurs pour la recherche sémantique.
🗃️ Étape 2 : Installer le vector store (Qdrant)
Le vector store stocke les embeddings de vos documents et permet la recherche sémantique. Nous utilisons Qdrant, open source et rapide. n8n supporte aussi ChromaDB et Pinecone.
Qdrant est accessible sur http://localhost:6333. Son dashboard web est sur http://localhost:6333/dashboard.
💡 Alternative : ChromaDB — Si vous préférez ChromaDB (plus simple, moins performant en production), lancez-le avec : docker run -d -p 8000:8000 chromadb/chroma
🎨 Étape 3 : Construire le workflow RAG dans n8n
C'est là que la magie opère. Dans l'interface n8n, nous allons créer deux workflows :
Workflow A : Indexation des documents
Ce workflow charge vos documents, les découpe en morceaux, génère les embeddings et les stocke dans Qdrant.
Nœud : File Trigger / Manual Trigger
Démarre le workflow quand vous uploadez un fichier, ou manuellement.
Nœud : Document Loader (PDF / Text)
Extrait le texte de vos fichiers. Supporte PDF, TXT, DOCX, HTML, Markdown.
Nœud : Text Splitter (Recursive Character)
Découpe le texte en chunks de 500-1000 caractères avec 50 caractères de chevauchement. Paramètres : chunkSize: 800, chunkOverlap: 50
Nœud : Embeddings (Ollama - nomic-embed-text)
Convertit chaque chunk en vecteur via Ollama. Configuration : baseUrl: http://host.docker.internal:11434, model: nomic-embed-text
Nœud : Qdrant Vector Store (Insert)
Stocke les vecteurs dans Qdrant. Configuration : url: http://host.docker.internal:6333, collection: mes-documents
Workflow B : Chatbot RAG (requêtes)
Ce workflow reçoit une question, cherche le contexte pertinent dans Qdrant, et génère une réponse avec Ollama.
Nœud : Chat Trigger / Webhook
Reçoit la question de l'utilisateur. Le Chat Trigger fournit une interface de chat intégrée directement dans n8n.
Nœud : Embeddings (Ollama - nomic-embed-text)
Convertit la question en vecteur pour la recherche sémantique.
Nœud : Qdrant Vector Store (Query)
Recherche les 3-5 chunks les plus pertinents dans votre base de documents.
Nœud : AI Agent / Chain
Combine le contexte récupéré avec la question dans un prompt structuré, et envoie à Ollama pour la génération.
Nœud : LLM (Ollama - llama3.1:8b)
Génère la réponse finale en se basant sur le contexte. Configuration : baseUrl: http://host.docker.internal:11434
⚡ Workflow interactif : visualisez le pipeline RAG
Cliquez sur chaque nœud du workflow pour voir ses détails de configuration. Le flux animé montre le parcours des données.
💡 Cas d'usage concrets
Le RAG avec n8n ouvre des possibilités immenses. Voici les cas d'usage les plus populaires :
📧 Réponse automatique aux emails
Un email arrive → n8n le lit → recherche dans vos docs internes → rédige une réponse → l'envoie (ou la met en brouillon pour validation).
💬 Bot Slack avec base de connaissances
Un collègue pose une question sur Slack → le bot cherche dans la doc interne → répond avec les sources. Fini de chercher dans 50 fichiers Confluence.
📚 Q&A sur documentation technique
Uploadez votre doc technique (API, manuels, guides) et posez des questions en langage naturel. Parfait pour l'onboarding de nouveaux développeurs.
📈 Analyse de rapports automatique
Chaque semaine, un rapport PDF arrive → n8n l'indexe automatiquement → génère un résumé → l'envoie par email. Zéro intervention humaine.
🔄 n8n RAG vs Python RAG : lequel choisir ?
| Critère | n8n (no-code) | Python (LangChain) |
|---|---|---|
| Difficulté | Facile (glisser-déposer) | Intermédiaire (code) |
| Temps de setup | ~30 min | ~2-4 heures |
| Flexibilité | Moyenne | Totale |
| Intégrations (email, Slack...) | 400+ nœuds natifs | À coder soi-même |
| Debugging | Visuel (voir chaque nœud) | Logs / print |
| Chunking avancé | Basique | Personnalisable |
| Production à grande échelle | Possible mais limité | Recommandé |
Notre recommandation : Commencez avec n8n pour prototyper rapidement. Si le besoin se complexifie (chunking avancé, reranking, agents multi-étapes), passez à Python avec LangChain ou LlamaIndex. Consultez notre guide RAG Python avec Ollama et notre guide Open WebUI pour une interface chat complète.
💻 Matériel recommandé pour auto-héberger
Pour faire tourner n8n + Ollama + Qdrant en local, voici nos recommandations matérielles :
Mini PC Intel N100 / 16 Go RAM
Suffisant pour n8n + Qdrant + embeddings CPU. Pour le LLM, utilisez un modèle léger (Phi-3 mini, Gemma 2B) ou connectez à un PC avec GPU.
→ Voir sur Amazon (~150-200 €)Mini PC AMD Ryzen 7 / 32 Go RAM
Plus de puissance pour l'inference CPU avec des modèles 7B. Idéal si vous voulez tout faire tourner sur une seule machine silencieuse.
→ Voir sur Amazon (~350-500 €)⚠️ Budget : Pour le RAG avec n8n en local, le mini PC à 150€ + Ollama suffit amplement pour un usage personnel. Les modèles d'embeddings sont légers et tournent même sur CPU. Le LLM est la partie la plus gourmande — un modèle 8B sur CPU est lent mais fonctionnel.
💡 Astuces avancées
1. Prompt système pour le RAG
Un bon prompt système fait toute la différence. Voici un template éprouvé :
basant sur le contexte fourni ci-dessous. Si la réponse
n'est pas dans le contexte, dis "Je ne trouve pas cette
information dans les documents disponibles."
Contexte :
{context}
Question : {question}
2. Optimisez le chunking
La taille des chunks impacté énormément la qualité du RAG. Règle générale : 800 caractères pour des documents techniques, 1200 caractères pour des textes narratifs. Ajustez le chunkOverlap à 10-15% de la taille du chunk.
3. Combinez avec d'autres workflows n8n
La force de n8n : chaîner les workflows. Exemples : RSS → indexer automatiquement les nouveaux articles, Google Drive → indexer les fichiers modifiés, Telegram → chatbot RAG mobile.
4. Monitoring et logs
n8n garde un historique de chaque exécution. Vous pouvez voir les entrées/sorties de chaque nœud, le temps d'exécution et les erreurs. Parfait pour optimiser votre pipeline RAG.
❓ Questions fréquentes
Qu'est-ce que n8n exactement ?
Peut-on faire du RAG avec n8n sans coder ?
n8n est-il gratuit ?
Quel matériel faut-il pour n8n + Ollama + RAG ?
n8n RAG vs Python RAG : lequel choisir ?
Quels cas d'usage concrets pour le RAG avec n8n ?
👉 Conclusion
n8n est l'outil idéal pour démocratiser le RAG. Plus besoin de savoir coder en Python pour construire un assistant IA basé sur vos documents. Avec n8n + Ollama + Qdrant, tout est local, gratuit et visuel.
Récapitulatif : votre stack RAG local
📦 Composants
- • n8n : orchestration visuelle
- • Ollama : LLM + embeddings locaux
- • Qdrant : vector store
- • Docker : conteneurisation
📈 Résultat
- ✓ 100% local et privé
- ✓ 0 € de coût récurrent
- ✓ 0 ligne de code
- ✓ Setup en 30 minutes
Lancez-vous dès aujourd'hui et construisez votre premier assistant IA privé. Si vous avez besoin d'aide, nos guides complémentaires vous accompagnent à chaque étape.