RAG sans internet : créer un assistant privé avec vos documents
100% offline, mémoire parfaite, zéro fuite de données
« Imaginez un secrétaire personnel qui a lu et mémorisé chaque document, chaque mail, chaque note que vous avez écrit en 10 ans. Vous lui posez n'importe quelle question, il retrouve l'info instantanément. Et il ne parle à personne d'autre. C'est un RAG privé. »
Quand vous utilisez ChatGPT ou Claude pour analyser un document, vos données transitent par des serveurs distants. Pour la plupart des cas, ce n'est pas un problème. Mais pour des contrats confidentiels, des dossiers médicaux, du code propriétaire ou des emails sensibles ? C'est un risque que beaucoup ne veulent pas prendre.
La solution : un RAG 100% local, qui tourne sur votre machine, sans connexion internet. Avec Ollama et une base vectorielle locale, vous pouvez construire un assistant IA qui lit vos documents et répond à vos questions — sans qu'un seul octet ne quitte votre disque dur.
Dans ce guide, nous allons voir les cas d'usage concrets, la comparaison vie privée cloud vs local, et une démo interactive d'un assistant privé en action.
🔒 Cloud vs Local : où vont vos données ?
Voici exactement ce qui se passe quand vous uploadez un document sur un service cloud vs quand vous utilisez un RAG local :
☁️ ChatGPT / Claude (cloud)
💻 RAG local (Ollama)
💡 Vous pouvez vérifier vous-même : une fois Ollama et les modèles installés, débranchez votre câble Ethernet et coupez le Wi-Fi. Le RAG continue de fonctionner parfaitement. Essayez de faire ça avec ChatGPT.
🎯 5 cas d'usage concrets
Le RAG privé n'est pas un gadget — c'est un outil de productivité qui transforme des heures de recherche en secondes. Voici 5 profils qui en tirent un avantage massif :
Avocat : interroger 500 dossiers instantanément
Indexez tous vos dossiers clients (contrats, correspondances, jugements). Posez des questions comme : "Quels clients ont une clause de non-concurrence de plus de 2 ans ?" ou "Dans quel dossier ai-je déjà traité un litige de propriété intellectuelle en droit européen ?"
Développeur : "comment fonctionne cette API dans notre codebase ?"
Indexez votre codebase entière (code, docs, README, commentaires). Demandez : "Comment fonctionne l'authentification JWT dans notre API ?" ou "Où est gérée la pagination dans le module products ?"
Étudiant : réviser 3 ans de cours en posant des questions
Scannez vos cours (PDF, notes Markdown, slides). Demandez : "Explique-moi la différence entre TCP et UDP avec des exemples" ou "Résume le chapitre sur la thermodynamique du cours de physique L2"
Entrepreneur : retrouver n'importe quelle info dans 10 ans de mails
Exportez vos emails (format .mbox ou .eml) et indexez-les. Demandez : "Quand est-ce que le fournisseur Dupont a accepté notre proposition de prix ?" ou "Quels sont les contacts que j'ai échangés avec l'entreprise XYZ en 2024 ?"
Chercheur : synthétiser 200 papers automatiquement
Indexez vos articles scientifiques (PDF, arXiv). Demandez : "Quelles sont les méthodes utilisées pour réduire les hallucinations dans les LLM ?" ou "Quels papers citent le Transformer original et proposent des améliorations d'attention ?"
🛠️ Installation rapide (mode offline)
Voici les commandes pour installer un RAG privé complet. Après ces étapes, vous pouvez couper internet — tout fonctionnera. Pour un guide détaillé étape par étape, consultez notre guide RAG local complet.
Phase 1 : Installation (nécessite internet)
Phase 2 : Utilisation (100% offline)
🔒 Aucune requête réseau. Vérifiez avec netstat ou wireshark — zéro trafic sortant.
Script complet : assistant privé interactif
📄 Quels documents indexer ?
Le RAG fonctionne avec pratiquement tous les formats de documents textuels. Voici les formats supportés et les meilleurs loaders LangChain pour chacun :
Contrats, rapports, articles scientifiques, factures
Notes, documentation, wikis, README
.py, .js, .ts, .java, .go, .rs, .cpp
Export .mbox (Gmail), .eml, .msg (Outlook)
Documents bureautiques, mémos, rapports
Données tabulaires, inventaires, CRM
🎮 Démo : assistant privé en action
Cliquez sur "Poser une question" pour voir comment l'assistant cherche dans votre coffre-fort de documents et génère une réponse avec citations précises.
🔒 Coffre-fort de documents
🛡️ Sécurité et bonnes pratiques
Activez le chiffrement complet de votre disque (BitLocker sous Windows, LUKS sous Linux, FileVault sous Mac). Vos embeddings et documents seront illisibles en cas de vol de la machine.
Bloquez les connexions sortantes d'Ollama dans votre pare-feu. Même si Ollama est local par défaut, cette couche supplémentaire empêche toute fuite accidentelle.
Le dossier ./chroma_db contient tous vos embeddings. Sauvegardez-le régulièrement sur un disque externe chiffré. La réindexation de 50k documents prend ~2h.
Les PDF contiennent souvent des métadonnées (auteur, date, logiciel). ChromaDB les stocke aussi. Si vous partagez votre base, nettoyez les métadonnées d'abord.
💻 Matériel recommandé
Voici les configurations selon votre volume de documents. Vérifiez si votre PC actuel peut faire tourner l'IA locale.
| 🟡 Minimum | 🟢 Recommandé | 🔵 Optimal | |
|---|---|---|---|
| GPU | RTX 3060 12 Go | RTX 4070 Ti Super | RTX 4090 24 Go |
| RAM | 16 Go | 32 Go DDR5 | 64 Go DDR5 |
| SSD | SATA 500 Go | NVMe 1 To | NVMe Gen4 2 To |
| Documents | ~500 fichiers | ~20 000 fichiers | 100 000+ fichiers |
| Modèles | nomic + Mistral 7B | bge-m3 + Mistral 7B | e5-mistral + Codestral 22B |
16 Go VRAM — embedding + LLM en parallèle.
ChromaDB charge les index en mémoire.
Rapide + compatible chiffrement matériel.
💡 Besoin d'aide pour choisir ? Consultez notre guide d'upgrade IA pour un PC optimisé RAG, ou testez si votre PC actuel est compatible. Pour un comparatif des modèles, voir notre article sur le meilleur modèle pour le RAG.
🚀 Aller plus loin
Combinez la recherche vectorielle (sémantique) avec une recherche BM25 (mots-clés). Les résultats sont significativement meilleurs, surtout pour les termes techniques spécifiques.
Après le retrieval initial, utilisez un modèle de re-ranking (comme bge-reranker) pour réordonner les résultats. Augmente la précision de ~10% sur nos benchmarks.
Utilisez Streamlit ou Gradio pour créer une interface web locale (localhost). Votre assistant privé devient aussi agréable à utiliser que ChatGPT.
Au lieu de tout réindexer, ajoutez uniquement les nouveaux documents à la base vectorielle. ChromaDB supporte nativement l'ajout incrémental.