Accueil Blog RAG sans internet
🔒 Vie privée

RAG sans internet : créer un assistant privé avec vos documents

100% offline, mémoire parfaite, zéro fuite de données

Par l'équipe OutilsIA avril 2026 16 min de lecture

« Imaginez un secrétaire personnel qui a lu et mémorisé chaque document, chaque mail, chaque note que vous avez écrit en 10 ans. Vous lui posez n'importe quelle question, il retrouve l'info instantanément. Et il ne parle à personne d'autre. C'est un RAG privé. »

Quand vous utilisez ChatGPT ou Claude pour analyser un document, vos données transitent par des serveurs distants. Pour la plupart des cas, ce n'est pas un problème. Mais pour des contrats confidentiels, des dossiers médicaux, du code propriétaire ou des emails sensibles ? C'est un risque que beaucoup ne veulent pas prendre.

La solution : un RAG 100% local, qui tourne sur votre machine, sans connexion internet. Avec Ollama et une base vectorielle locale, vous pouvez construire un assistant IA qui lit vos documents et répond à vos questions — sans qu'un seul octet ne quitte votre disque dur.

Dans ce guide, nous allons voir les cas d'usage concrets, la comparaison vie privée cloud vs local, et une démo interactive d'un assistant privé en action.

🔒 Cloud vs Local : où vont vos données ?

Voici exactement ce qui se passe quand vous uploadez un document sur un service cloud vs quand vous utilisez un RAG local :

☁️ ChatGPT / Claude (cloud)

1
Votre document est envoyé sur un serveur (USA, EU, etc.)
2
Le texte est traité sur des GPU distants
3
Possibilité de rétention des données (logs, entraînement)
4
Pas de contrôle sur qui accède à vos données
⚠ Vos contrats, emails et code passent par des serveurs tiers

💻 RAG local (Ollama)

1
Votre document reste sur votre disque dur
2
Le texte est traité par votre propre GPU
3
Zéro connexion internet requise après installation
4
Vous seul avez accès à vos données, point final
🔒 Rien ne sort de votre machine. Jamais. Même pas un octet.

💡 Vous pouvez vérifier vous-même : une fois Ollama et les modèles installés, débranchez votre câble Ethernet et coupez le Wi-Fi. Le RAG continue de fonctionner parfaitement. Essayez de faire ça avec ChatGPT.

🎯 5 cas d'usage concrets

Le RAG privé n'est pas un gadget — c'est un outil de productivité qui transforme des heures de recherche en secondes. Voici 5 profils qui en tirent un avantage massif :

⚖️

Avocat : interroger 500 dossiers instantanément

Indexez tous vos dossiers clients (contrats, correspondances, jugements). Posez des questions comme : "Quels clients ont une clause de non-concurrence de plus de 2 ans ?" ou "Dans quel dossier ai-je déjà traité un litige de propriété intellectuelle en droit européen ?"

📄 ~500 PDF, ~50 000 pages — Réponse en 3 secondes au lieu de 3 heures de recherche
💻

Développeur : "comment fonctionne cette API dans notre codebase ?"

Indexez votre codebase entière (code, docs, README, commentaires). Demandez : "Comment fonctionne l'authentification JWT dans notre API ?" ou "Où est gérée la pagination dans le module products ?"

📁 Code propriétaire qui ne doit JAMAIS quitter l'entreprise
🎓

Étudiant : réviser 3 ans de cours en posant des questions

Scannez vos cours (PDF, notes Markdown, slides). Demandez : "Explique-moi la différence entre TCP et UDP avec des exemples" ou "Résume le chapitre sur la thermodynamique du cours de physique L2"

📚 3 ans de cours en mémoire, accessibles en langage naturel
💼

Entrepreneur : retrouver n'importe quelle info dans 10 ans de mails

Exportez vos emails (format .mbox ou .eml) et indexez-les. Demandez : "Quand est-ce que le fournisseur Dupont a accepté notre proposition de prix ?" ou "Quels sont les contacts que j'ai échangés avec l'entreprise XYZ en 2024 ?"

📧 Des années de correspondance deviennent cherchables en secondes
🔬

Chercheur : synthétiser 200 papers automatiquement

Indexez vos articles scientifiques (PDF, arXiv). Demandez : "Quelles sont les méthodes utilisées pour réduire les hallucinations dans les LLM ?" ou "Quels papers citent le Transformer original et proposent des améliorations d'attention ?"

📜 Revue de littérature en minutes au lieu de semaines

🛠️ Installation rapide (mode offline)

Voici les commandes pour installer un RAG privé complet. Après ces étapes, vous pouvez couper internet — tout fonctionnera. Pour un guide détaillé étape par étape, consultez notre guide RAG local complet.

Phase 1 : Installation (nécessite internet)

# 1. Installer Ollama
curl -fsSL https://ollama.ai/install.sh | sh
# 2. Télécharger les modèles
ollama pull mistral:7b
ollama pull nomic-embed-text
# 3. Installer les dépendances Python
pip install chromadb langchain langchain-community
pip install pypdf docx2txt unstructured

Phase 2 : Utilisation (100% offline)

# Coupez internet ici. Tout fonctionne.
# Indexer vos documents
python index_documents.py --dir ./mes_documents/
# Poser des questions
python query_rag.py --question "Quelles sont les conditions du contrat Dupont ?"

🔒 Aucune requête réseau. Vérifiez avec netstat ou wireshark — zéro trafic sortant.

Script complet : assistant privé interactif

# assistant_prive.py
from
langchain_community.llms
import
Ollama
from
langchain_community.embeddings
import
OllamaEmbeddings
from
langchain_community.vectorstores
import
Chroma
from
langchain.chains
import
RetrievalQA
# Charger la base existante
embeddings = OllamaEmbeddings(model="nomic-embed-text")
vectorstore = Chroma(
persist_directory="./mon_coffre_fort",
embedding_function=embeddings
)
llm = Ollama(model="mistral:7b", temperature=0.1)
qa = RetrievalQA.from_chain_type(
llm=llm, retriever=vectorstore.as_retriever(
search_kwargs={"k": 3}
)
)
# Boucle interactive
while
True
:
question = input("\n🔒 Votre question : ")
if question.lower() in ["quit", "exit"]: break
result = qa.invoke({"query": question})
print(f"\n🤖 {result['result']}")

📄 Quels documents indexer ?

Le RAG fonctionne avec pratiquement tous les formats de documents textuels. Voici les formats supportés et les meilleurs loaders LangChain pour chacun :

📄
PDF

Contrats, rapports, articles scientifiques, factures

PyPDFLoader
📝
Texte / Markdown

Notes, documentation, wikis, README

TextLoader
💻
Code source

.py, .js, .ts, .java, .go, .rs, .cpp

TextLoader + CodeSplitter
📧
Emails

Export .mbox (Gmail), .eml, .msg (Outlook)

MboxLoader / EmlLoader
📃
Word / DOCX

Documents bureautiques, mémos, rapports

Docx2txtLoader
📊
CSV / Excel

Données tabulaires, inventaires, CRM

CSVLoader

🎮 Démo : assistant privé en action

Cliquez sur "Poser une question" pour voir comment l'assistant cherche dans votre coffre-fort de documents et génère une réponse avec citations précises.

setTimeout(r, 600)); this.phase = 'searching'; for (let i = 0; i < this.vault.length; i++) { this.searchingDocs.push(i); this.addLog('Recherche dans ' + this.vault[i].name + '...', q.searchHighlight.includes(i) ? 'found' : 'info'); await new Promise(r => setTimeout(r, 300)); } this.addLog('3 passages pertinents retrouv\u00e9s (score > 0.85)', 'success'); await new Promise(r => setTimeout(r, 500)); this.phase = 'generating'; this.addLog('Envoi au LLM (mistral:7b, temp=0.1)...', 'info'); this.addLog('G\u00e9n\u00e9ration de la r\u00e9ponse en cours...', 'generate'); await new Promise(r => setTimeout(r, 1800)); this.answer = q.answer; this.citations = q.citations; this.phase = 'done'; this.addLog('R\u00e9ponse g\u00e9n\u00e9r\u00e9e (100% offline, 0 octets envoy\u00e9s)', 'success'); } }" class="glass rounded-2xl p-6 mb-10">

🔒 Coffre-fort de documents

Cliquez sur une question :
$ assistant-prive v1.0 — mode 100% offline

🛡️ Sécurité et bonnes pratiques

🔒 Chiffrement du disque

Activez le chiffrement complet de votre disque (BitLocker sous Windows, LUKS sous Linux, FileVault sous Mac). Vos embeddings et documents seront illisibles en cas de vol de la machine.

🔧 Pare-feu applicatif

Bloquez les connexions sortantes d'Ollama dans votre pare-feu. Même si Ollama est local par défaut, cette couche supplémentaire empêche toute fuite accidentelle.

🗃 Sauvegarde de la base vectorielle

Le dossier ./chroma_db contient tous vos embeddings. Sauvegardez-le régulièrement sur un disque externe chiffré. La réindexation de 50k documents prend ~2h.

⚠ Attention aux métadonnées

Les PDF contiennent souvent des métadonnées (auteur, date, logiciel). ChromaDB les stocke aussi. Si vous partagez votre base, nettoyez les métadonnées d'abord.

💻 Matériel recommandé

Voici les configurations selon votre volume de documents. Vérifiez si votre PC actuel peut faire tourner l'IA locale.

🟡 Minimum 🟢 Recommandé 🔵 Optimal
GPU RTX 3060 12 Go RTX 4070 Ti Super RTX 4090 24 Go
RAM 16 Go 32 Go DDR5 64 Go DDR5
SSD SATA 500 Go NVMe 1 To NVMe Gen4 2 To
Documents ~500 fichiers ~20 000 fichiers 100 000+ fichiers
Modèles nomic + Mistral 7B bge-m3 + Mistral 7B e5-mistral + Codestral 22B

💡 Besoin d'aide pour choisir ? Consultez notre guide d'upgrade IA pour un PC optimisé RAG, ou testez si votre PC actuel est compatible. Pour un comparatif des modèles, voir notre article sur le meilleur modèle pour le RAG.

🚀 Aller plus loin

🔍 Recherche hybride

Combinez la recherche vectorielle (sémantique) avec une recherche BM25 (mots-clés). Les résultats sont significativement meilleurs, surtout pour les termes techniques spécifiques.

🔄 Re-ranking

Après le retrieval initial, utilisez un modèle de re-ranking (comme bge-reranker) pour réordonner les résultats. Augmente la précision de ~10% sur nos benchmarks.

🗒 Interface graphique

Utilisez Streamlit ou Gradio pour créer une interface web locale (localhost). Votre assistant privé devient aussi agréable à utiliser que ChatGPT.

🔄 Mise à jour incrémentale

Au lieu de tout réindexer, ajoutez uniquement les nouveaux documents à la base vectorielle. ChromaDB supporte nativement l'ajout incrémental.

Questions fréquentes

Oui, à 100%. Une fois Ollama installé et les modèles téléchargés, vous pouvez couper internet complètement. Le LLM, le modèle d'embedding et ChromaDB fonctionnent tous en local. Vous pouvez vérifier avec un outil de monitoring réseau (wireshark, netstat) : zéro trafic sortant.
Pour les questions basées sur vos documents, le RAG local avec Mistral 7B donne des réponses comparables voire supérieures à ChatGPT. Pourquoi ? Parce que ChatGPT n'a pas accès à vos documents privés et doit inventer. Le RAG local, lui, cite directement les passages pertinents. Pour des questions générales (sans documents), ChatGPT/Claude restent supérieurs car ils ont été entraînés sur beaucoup plus de données.
Avec une RTX 4070 Ti Super et nomic-embed-text, comptez environ 30-45 minutes pour 10 000 documents de taille moyenne. L'indexation ne se fait qu'une seule fois. Les nouveaux documents sont ajoutés incrémentalement en quelques secondes chacun. Un SSD NVMe rapide accélère aussi la lecture des documents.
Gmail : Google Takeout à format .mbox. Outlook : export .pst puis conversion en .eml avec des outils gratuits. Thunderbird : les fichiers .mbox sont directement dans le dossier profil. LangChain fournit des loaders pour tous ces formats. Une fois exportés, les emails sont indexés comme n'importe quel document texte.