Accueil Blog RAG local avec n8n
⚙️ Automatisation IA

RAG local avec n8n : automatiser votre assistant IA sans code

Construisez un pipeline RAG visuel avec n8n + Ollama, entièrement en local

Par l'équipe OutilsIA avril 2026 20 min de lecture

« Imaginez : vous uploadez vos documents d'entreprise, et 10 minutes plus tard, un chatbot IA répond à toutes les questions de votre équipe — en local, sans cloud, sans code. C'est exactement ce que n8n + Ollama permettent. »

Le RAG (Retrieval-Augmented Generation) est la technique qui permet à une IA de répondre à des questions en s'appuyant sur vos propres documents. Fini les hallucinations — l'IA cite des sources réelles. Et avec n8n, vous pouvez construire tout ça sans écrire une seule ligne de code.

n8n est une plateforme d'automatisation open source, souvent décrite comme le « Zapier auto-hébergé ». En 2026, c'est l'outil no-code le plus discuté sur Reddit pour l'automatisation IA, grâce à ses nœuds natifs pour Ollama, les vector stores et les LLMs.

Dans ce guide, nous allons construire un système RAG complet : de l'installation de n8n à la création d'un assistant IA qui répond à vos questions en se basant sur vos documents. Tout en local, tout gratuit. Si vous voulez comprendre les bases du RAG, consultez d'abord notre guide RAG local avec Ollama.

🧰 Qu'est-ce que n8n ?

n8n (prononcé « n-eight-n ») est un outil d'automatisation de workflows open source. Pensez à Zapier ou Make.com, mais que vous hébergez vous-même. La différence clé : vos données restent chez vous, et il n'y a aucune limite d'exécution.

🎨

Visuel

Créez des workflows en glissant-déposant des nœuds. Aucun code nécessaire (mais possible si besoin).

🔒

Auto-hébergé

Installez sur votre machine ou serveur. Données privées, pas de cloud, pas de frais mensuels.

🤖

IA native

Nœuds intégrés pour Ollama, OpenAI, vector stores, embeddings, RAG complet.

n8n vs Zapier vs Make : pourquoi n8n pour l'IA ?

Critère n8n Zapier Make
Open source
Auto-hébergement
Nœuds IA / RAG ✓ Natif Limité Limité
Connexion Ollama locale
Prix (auto-hébergé) Gratuit N/A N/A

🛠️ Architecture RAG avec n8n

Avant de construire, comprenons l'architecture. Un système RAG a deux phases :

Phase 1 : Indexation

Préparation de vos documents pour la recherche.

  1. 1. Charger les documents (PDF, TXT, HTML...)
  2. 2. Découper en chunks (morceaux)
  3. 3. Générer les embeddings (vecteurs)
  4. 4. Stocker dans un vector store

Phase 2 : Requête (Query)

Répondre aux questions avec contexte.

  1. 1. L'utilisateur pose une question
  2. 2. Recherche des chunks pertinents
  3. 3. Injection du contexte dans le prompt
  4. 4. Le LLM génère une réponse sourcée

Pour une compréhension approfondie du RAG, consultez notre guide RAG local avec Ollama et notre article sur les meilleurs modèles RAG 2026. Pour une approche plus avancée avec des agents, voir notre guide Agentic RAG.

📦 Étape 1 : Installer n8n avec Docker

L'installation la plus simple est via Docker. En 2 commandes, n8n tourne sur votre machine.

Prérequis

  • Docker installé sur votre machine (guide officiel)
  • Ollama installé et fonctionnel (notre guide)
  • • 4 Go de RAM disponibles minimum

Installation n8n

# Créer un volume pour persister les données
docker volume create n8n_data
# Lancer n8n
docker run -d --name n8n \
-p 5678:5678 \
-v n8n_data:/home/node/.n8n \
--add-host=host.docker.internal:host-gateway \
docker.n8n.io/n8nio/n8n

L'option --add-host permet à n8n (dans Docker) d'accéder à Ollama (sur l'hôte). Sans ça, la connexion échoue.

Vérification

# Vérifier que n8n tourne
docker ps | grep n8n
# Ouvrir dans le navigateur
http://localhost:5678

Créez un compte administrateur lors du premier accès. C'est un compte local — aucune donnée n'est envoyée à n8n.io.

Télécharger les modèles Ollama nécessaires

# Modèle LLM pour la génération de réponses
ollama pull llama3.1:8b
# Modèle d'embeddings pour le RAG
ollama pull nomic-embed-text

nomic-embed-text est un modèle d'embeddings léger (274 Mo) mais performant. Il convertit vos textes en vecteurs pour la recherche sémantique.

🗃️ Étape 2 : Installer le vector store (Qdrant)

Le vector store stocke les embeddings de vos documents et permet la recherche sémantique. Nous utilisons Qdrant, open source et rapide. n8n supporte aussi ChromaDB et Pinecone.

# Lancer Qdrant via Docker
docker run -d --name qdrant \
-p 6333:6333 \
-v qdrant_data:/qdrant/storage \
qdrant/qdrant

Qdrant est accessible sur http://localhost:6333. Son dashboard web est sur http://localhost:6333/dashboard.

💡 Alternative : ChromaDB — Si vous préférez ChromaDB (plus simple, moins performant en production), lancez-le avec : docker run -d -p 8000:8000 chromadb/chroma

🎨 Étape 3 : Construire le workflow RAG dans n8n

C'est là que la magie opère. Dans l'interface n8n, nous allons créer deux workflows :

Workflow A : Indexation des documents

Ce workflow charge vos documents, les découpe en morceaux, génère les embeddings et les stocke dans Qdrant.

1

Nœud : File Trigger / Manual Trigger

Démarre le workflow quand vous uploadez un fichier, ou manuellement.

2

Nœud : Document Loader (PDF / Text)

Extrait le texte de vos fichiers. Supporte PDF, TXT, DOCX, HTML, Markdown.

3

Nœud : Text Splitter (Recursive Character)

Découpe le texte en chunks de 500-1000 caractères avec 50 caractères de chevauchement. Paramètres : chunkSize: 800, chunkOverlap: 50

4

Nœud : Embeddings (Ollama - nomic-embed-text)

Convertit chaque chunk en vecteur via Ollama. Configuration : baseUrl: http://host.docker.internal:11434, model: nomic-embed-text

5

Nœud : Qdrant Vector Store (Insert)

Stocke les vecteurs dans Qdrant. Configuration : url: http://host.docker.internal:6333, collection: mes-documents

Workflow B : Chatbot RAG (requêtes)

Ce workflow reçoit une question, cherche le contexte pertinent dans Qdrant, et génère une réponse avec Ollama.

1

Nœud : Chat Trigger / Webhook

Reçoit la question de l'utilisateur. Le Chat Trigger fournit une interface de chat intégrée directement dans n8n.

2

Nœud : Embeddings (Ollama - nomic-embed-text)

Convertit la question en vecteur pour la recherche sémantique.

3

Nœud : Qdrant Vector Store (Query)

Recherche les 3-5 chunks les plus pertinents dans votre base de documents.

4

Nœud : AI Agent / Chain

Combine le contexte récupéré avec la question dans un prompt structuré, et envoie à Ollama pour la génération.

5

Nœud : LLM (Ollama - llama3.1:8b)

Génère la réponse finale en se basant sur le contexte. Configuration : baseUrl: http://host.docker.internal:11434

⚡ Workflow interactif : visualisez le pipeline RAG

Cliquez sur chaque nœud du workflow pour voir ses détails de configuration. Le flux animé montre le parcours des données.

💡 Cas d'usage concrets

Le RAG avec n8n ouvre des possibilités immenses. Voici les cas d'usage les plus populaires :

📧 Réponse automatique aux emails

Un email arrive → n8n le lit → recherche dans vos docs internes → rédige une réponse → l'envoie (ou la met en brouillon pour validation).

Trigger: Email (IMAP) → RAG Pipeline → Gmail Send

💬 Bot Slack avec base de connaissances

Un collègue pose une question sur Slack → le bot cherche dans la doc interne → répond avec les sources. Fini de chercher dans 50 fichiers Confluence.

Trigger: Slack Message → RAG Pipeline → Slack Reply

📚 Q&A sur documentation technique

Uploadez votre doc technique (API, manuels, guides) et posez des questions en langage naturel. Parfait pour l'onboarding de nouveaux développeurs.

Trigger: Chat UI → RAG Pipeline → Chat Response

📈 Analyse de rapports automatique

Chaque semaine, un rapport PDF arrive → n8n l'indexe automatiquement → génère un résumé → l'envoie par email. Zéro intervention humaine.

Trigger: Schedule/File Watch → Index Pipeline → Summary → Email

🔄 n8n RAG vs Python RAG : lequel choisir ?

Critère n8n (no-code) Python (LangChain)
Difficulté Facile (glisser-déposer) Intermédiaire (code)
Temps de setup ~30 min ~2-4 heures
Flexibilité Moyenne Totale
Intégrations (email, Slack...) 400+ nœuds natifs À coder soi-même
Debugging Visuel (voir chaque nœud) Logs / print
Chunking avancé Basique Personnalisable
Production à grande échelle Possible mais limité Recommandé

Notre recommandation : Commencez avec n8n pour prototyper rapidement. Si le besoin se complexifie (chunking avancé, reranking, agents multi-étapes), passez à Python avec LangChain ou LlamaIndex. Consultez notre guide RAG Python avec Ollama et notre guide Open WebUI pour une interface chat complète.

💻 Matériel recommandé pour auto-héberger

Pour faire tourner n8n + Ollama + Qdrant en local, voici nos recommandations matérielles :

⚠️ Budget : Pour le RAG avec n8n en local, le mini PC à 150€ + Ollama suffit amplement pour un usage personnel. Les modèles d'embeddings sont légers et tournent même sur CPU. Le LLM est la partie la plus gourmande — un modèle 8B sur CPU est lent mais fonctionnel.

💡 Astuces avancées

1. Prompt système pour le RAG

Un bon prompt système fait toute la différence. Voici un template éprouvé :

Tu es un assistant expert. Réponds UNIQUEMENT en te
basant sur le contexte fourni ci-dessous. Si la réponse
n'est pas dans le contexte, dis "Je ne trouve pas cette
information dans les documents disponibles."

Contexte :
{context}

Question : {question}

2. Optimisez le chunking

La taille des chunks impacté énormément la qualité du RAG. Règle générale : 800 caractères pour des documents techniques, 1200 caractères pour des textes narratifs. Ajustez le chunkOverlap à 10-15% de la taille du chunk.

3. Combinez avec d'autres workflows n8n

La force de n8n : chaîner les workflows. Exemples : RSS → indexer automatiquement les nouveaux articles, Google Drive → indexer les fichiers modifiés, Telegram → chatbot RAG mobile.

4. Monitoring et logs

n8n garde un historique de chaque exécution. Vous pouvez voir les entrées/sorties de chaque nœud, le temps d'exécution et les erreurs. Parfait pour optimiser votre pipeline RAG.

❓ Questions fréquentes

Qu'est-ce que n8n exactement ?
n8n est une plateforme d'automatisation open source et auto-hébergée. C'est un équivalent de Zapier/Make, mais que vous installez sur votre propre serveur. Elle permet de créer des workflows visuels (glisser-déposer) en connectant des nœuds sans écrire de code. En 2026, n8n intègre des nœuds natifs pour l'IA (Ollama, OpenAI, vector stores).
Peut-on faire du RAG avec n8n sans coder ?
Oui, c'est même le point fort de n8n pour le RAG. Tous les composants sont disponibles en nœuds visuels : chargement de documents, découpage en chunks, génération d'embeddings via Ollama, stockage vectoriel (Qdrant/ChromaDB), et génération de réponses. Tout se configure en cliquant.
n8n est-il gratuit ?
n8n Community Edition est entièrement gratuit et open source. Installez-le via Docker sur votre machine et utilisez-le sans aucune limite d'exécution. La version cloud (n8n.io) propose un tier gratuit limité et des plans payants, mais pour le RAG local, l'auto-hébergement est recommandé.
Quel matériel faut-il pour n8n + Ollama + RAG ?
Un mini PC avec 16 Go de RAM suffit pour n8n + Qdrant + embeddings sur CPU. Pour le LLM, un GPU de 8+ Go de VRAM est idéal, mais un modèle léger (Phi-3 mini, Gemma 2B) fonctionne aussi sur CPU.
n8n RAG vs Python RAG : lequel choisir ?
n8n est idéal pour les non-développeurs ou pour prototyper rapidement (30 min vs 4h). Python (LangChain, LlamaIndex) offre plus de flexibilité et de contrôle pour la production. Notre conseil : prototypez avec n8n, passez à Python si le besoin se complexifie. Voir notre guide RAG Python.
Quels cas d'usage concrets pour le RAG avec n8n ?
Les plus courants : chatbot sur documents internes, réponse automatique aux emails avec contexte d'entreprise, bot Slack/Discord avec base de connaissances, Q&A sur documentation technique, analyse automatique de rapports hebdomadaires.

👉 Conclusion

n8n est l'outil idéal pour démocratiser le RAG. Plus besoin de savoir coder en Python pour construire un assistant IA basé sur vos documents. Avec n8n + Ollama + Qdrant, tout est local, gratuit et visuel.

Récapitulatif : votre stack RAG local

📦 Composants

  • n8n : orchestration visuelle
  • Ollama : LLM + embeddings locaux
  • Qdrant : vector store
  • Docker : conteneurisation

📈 Résultat

  • ✓ 100% local et privé
  • ✓ 0 € de coût récurrent
  • ✓ 0 ligne de code
  • ✓ Setup en 30 minutes

Lancez-vous dès aujourd'hui et construisez votre premier assistant IA privé. Si vous avez besoin d'aide, nos guides complémentaires vous accompagnent à chaque étape.

📚 Articles liés