Fine-tuning : entraîner une IA avec vos propres données
Guide local 2026 — LoRA, QLoRA, Unsloth, et votre GPU
« Imaginez un médecin généraliste. Il sait un peu de tout. Maintenant imaginez que vous l'envoyez se spécialiser pendant 3 ans en cardiologie. Il garde toutes ses connaissances générales, mais devient expert en cœur. C'est exactement ce que fait le fine-tuning avec une IA. »
Vous savez déjà utiliser des IA comme ChatGPT ou Claude. Vous savez peut-être même faire tourner des modèles en local avec Ollama. Mais il y a une étape au-dessus : entraîner un modèle avec vos propres données.
Le fine-tuning transforme un LLM généraliste en expert de votre domaine. Un chatbot qui connaît votre documentation produit, un assistant code qui connaît votre codebase, un expert juridique formé sur le droit français... tout ça en local, sur votre machine, sans envoyer une seule donnée dans le cloud.
Ce guide vous explique tout : la théorie (simple), les outils (Unsloth, Axolotl), le matériel nécessaire, et un tutoriel pas-à-pas pour fine-tuner votre premier modèle. Un calculateur interactif vous aidera à estimer le temps et la VRAM nécessaires.
🧠 Qu'est-ce que le fine-tuning ?
Le fine-tuning est le processus qui consiste à réentraîner un modèle IA pré-existant sur vos propres données. Plutôt que de créer un modèle de zéro (ce qui coûte des millions), vous partez d'un modèle déjà intelligent et vous lui apprenez votre spécialité.
Llama 3, Mistral, Gemma... un LLM généraliste pré-entraîné sur des milliards de mots.
FAQ client, documentation interne, code, jurisprudence, fiches produit...
Une IA qui maîtrise votre domaine en plus de ses connaissances générales.
💡 Fine-tuning vs RAG vs Prompt Engineering
Vous donnez des instructions dans le prompt. Pas d'entraînement, juste du contexte. Limité par la taille du contexte.
L'IA cherche dans vos documents avant de répondre. Pas d'entraînement, mais nécessite un pipeline de recherche vectorielle.
Vous modifiez les poids du modèle. L'IA apprend vraiment vos données, pas juste les consulte. Réponses plus naturelles, style adapté, domaine spécifique.
En pratique, la meilleure approche est souvent de combiner les trois : fine-tuning pour le style et le domaine, RAG pour les données à jour, et prompt engineering pour les instructions spécifiques.
🔧 LoRA, QLoRA, Full Fine-tuning : quelle méthode ?
Il existe trois grandes méthodes pour fine-tuner un modèle. En 2026, QLoRA est la méthode standard car elle offre le meilleur compromis qualité/coût :
| Méthode | VRAM requise (7B) | Qualité | Vitesse | GPU minimum |
|---|---|---|---|---|
|
Full Fine-tuning
Modifie tous les poids |
~60 Go | ★★★★★ | Très lent | A100 80 Go |
|
LoRA
Adapateurs légers |
~16 Go | ★★★★ | Rapide | RTX 4070 Ti Super |
|
QLoRA ★
LoRA + quantification 4-bit |
~6 Go | ★★★★ | Très rapide | RTX 3060 12 Go |
Comment fonctionne LoRA ?
Au lieu de modifier les milliards de paramètres du modèle, LoRA (Low-Rank Adaptation) ajoute de petites matrices "adaptateur" à côté des couches existantes. Ces adaptateurs ne représentent que 0.1% à 1% de la taille du modèle original.
QLoRA va plus loin : il charge le modèle de base en 4 bits (au lieu de 16), réduisant la VRAM de 75%. Les adaptateurs LoRA restent en 16 bits pour maintenir la qualité.
Résultat : vous pouvez fine-tuner un modèle 7B sur une RTX 3060 12 Go, ou un modèle 13B sur une RTX 4090.
🛠️ Les outils de fine-tuning en 2026
L'outil le plus rapide pour le fine-tuning. 2x plus rapide que les alternatives, 60% moins de VRAM. Interface simple, compatible Ollama. C'est ce qu'on utilise dans ce guide.
Outil plus complet, basé sur des fichiers YAML de configuration. Plus complexe mais plus flexible. Idéal pour les projets en production.
La librairie officielle de Hugging Face pour le fine-tuning. Plus verbeux mais extrêmement flexible. La référence pour la recherche.
Interface web pour le fine-tuning. Pas de code nécessaire : choisissez votre modèle, uploadez vos données, cliquez "Train". Idéal pour les débutants.
📊 Préparer vos données
La qualité de vos données détermine la qualité du fine-tuning. La règle d'or : mieux vaut 500 exemples parfaits que 10 000 exemples médiocres.
Format JSONL
Le format standard pour le fine-tuning est JSONL (JSON Lines) : un JSON par ligne, au format conversation :
💡 Sources de données pour le fine-tuning
- • FAQ et support client
- • Documentation produit
- • Emails types (anonymisés)
- • Code source de votre projet
- • Générées par Claude ou GPT-4
- • Variations de vos données existantes
- • Scénarios hypothétiques
- • Traductions multilingues
Astuce : utilisez Claude ou GPT-4 pour générer des données synthétiques à partir de vos données réelles. 100 exemples réels + 400 exemples synthétiques = un excellent dataset de 500.
🚀 Tutoriel : fine-tuner avec Unsloth + Ollama
Étape 1 : Installation
Étape 2 : Script de fine-tuning
Étape 3 : Importer dans Ollama
🎉 Votre modèle personnalisé tourne maintenant dans Ollama, exactement comme n'importe quel autre modèle. Consultez notre guide Ollama pour plus de détails.
🎯 Cas d'usage concrets
Fine-tunez un modèle 7B sur vos FAQ et historiques de tickets. Résultat : un chatbot qui répond exactement comme votre équipe, avec votre ton et votre terminologie.
Dataset : ~1000 paires question/réponse
Entraînez un modèle sur votre codebase. Il connaîtra vos conventions, vos APIs, vos patterns. Mieux qu'un Copilot générique.
Dataset : ~500 exemples de code + commentaires
Fine-tunez sur le Code civil, la jurisprudence, et vos modèles de contrats. Un assistant qui connaît le droit français en profondeur.
Dataset : ~2000 paires question/réponse juridiques
Entraînez sur vos rapports financiers, analyses de marché, et données sectorielles. Un assistant qui comprend votre métier.
Dataset : ~800 analyses formatées
💻 Matériel requis par taille de modèle
| Taille modèle | Méthode | VRAM min | GPU recommandé | Prix GPU |
|---|---|---|---|---|
| 7B (Llama 3, Mistral) | QLoRA 4-bit | ~6 Go | RTX 3060 12 Go | ~280 € |
| 7B (recommandé) | QLoRA 4-bit | ~8 Go | RTX 4070 Ti Super | ~750 € |
| 13B (CodeLlama, etc.) | QLoRA 4-bit | ~12 Go | RTX 4090 24 Go | ~1800 € |
| 70B (Llama 3 70B) | QLoRA 4-bit | ~40 Go | RTX PRO 6000 48 Go | ~6500 € |
🧮 Calculateur de fine-tuning
Estimez le temps d'entraînement et la VRAM nécessaire pour votre projet.
Votre peut fine-tuner un modèle en QLoRA. Temps estimé : .
Le modèle nécessite de VRAM, mais votre n'a que . Choisissez un modèle plus petit ou un GPU plus puissant.
ⓘ Estimations approximatives avec Unsloth + QLoRA. Les temps réels varient selon le dataset, la longueur des exemples, et la température ambiante du GPU.
💡 Bonnes pratiques
Testez d'abord avec 100 exemples et 1 époque. Vérifiez que tout fonctionne avant de lancer un entraînement long. Utilisez un modèle 3B ou 7B pour les premiers tests.
500 exemples bien rédigés battent 10 000 exemples médiocres. Chaque exemple doit être une réponse que vous seriez fier de donner à un client.
Gardez 10-20% de vos données pour les tests. Après l'entraînement, posez ces questions au modèle et vérifiez les réponses manuellement.
Si le modèle récite vos données mot pour mot au lieu de généraliser, réduisez le nombre d'époques ou augmentez le dropout. 3 époques est un bon défaut.
Le format GGUF est le standard pour Ollama. Unsloth exporte directement en GGUF. Choisissez la quantification Q4_K_M pour le meilleur rapport taille/qualité.
Le chargement des données depuis un disque dur mécanique peut ralentir l'entraînement. Un SSD NVMe est fortement recommandé.
💻 Matériel recommandé
16 Go VRAM. Fine-tune 7B en QLoRA facilement. Aussi parfait pour Ollama et Whisper.
24 Go VRAM. Fine-tune 13B en QLoRA, 7B en LoRA complet. Le choix des pros du ML.
48 Go VRAM. La seule carte grand public capable de fine-tuner des modèles 70B en QLoRA.
Stockez vos datasets et modèles sur un SSD rapide. Accélère le chargement et l'export des modèles.
Questions fréquentes
Liens et ressources
L'outil recommandé dans ce guide
Alternative plus complète, config YAML