Accueil Blog Fine-tuning IA
🧠 Avancé

Fine-tuning : entraîner une IA avec vos propres données

Guide local 2026 — LoRA, QLoRA, Unsloth, et votre GPU

Par l'équipe OutilsIA avril 2026 20 min de lecture

« Imaginez un médecin généraliste. Il sait un peu de tout. Maintenant imaginez que vous l'envoyez se spécialiser pendant 3 ans en cardiologie. Il garde toutes ses connaissances générales, mais devient expert en cœur. C'est exactement ce que fait le fine-tuning avec une IA. »

Vous savez déjà utiliser des IA comme ChatGPT ou Claude. Vous savez peut-être même faire tourner des modèles en local avec Ollama. Mais il y a une étape au-dessus : entraîner un modèle avec vos propres données.

Le fine-tuning transforme un LLM généraliste en expert de votre domaine. Un chatbot qui connaît votre documentation produit, un assistant code qui connaît votre codebase, un expert juridique formé sur le droit français... tout ça en local, sur votre machine, sans envoyer une seule donnée dans le cloud.

Ce guide vous explique tout : la théorie (simple), les outils (Unsloth, Axolotl), le matériel nécessaire, et un tutoriel pas-à-pas pour fine-tuner votre premier modèle. Un calculateur interactif vous aidera à estimer le temps et la VRAM nécessaires.

🧠 Qu'est-ce que le fine-tuning ?

Le fine-tuning est le processus qui consiste à réentraîner un modèle IA pré-existant sur vos propres données. Plutôt que de créer un modèle de zéro (ce qui coûte des millions), vous partez d'un modèle déjà intelligent et vous lui apprenez votre spécialité.

🎓
Modèle de base

Llama 3, Mistral, Gemma... un LLM généraliste pré-entraîné sur des milliards de mots.

+
Vos données

FAQ client, documentation interne, code, jurisprudence, fiches produit...

=
Modèle expert

Une IA qui maîtrise votre domaine en plus de ses connaissances générales.

💡 Fine-tuning vs RAG vs Prompt Engineering

Prompt Engineering (facile)

Vous donnez des instructions dans le prompt. Pas d'entraînement, juste du contexte. Limité par la taille du contexte.

RAG — Retrieval Augmented Generation (moyen)

L'IA cherche dans vos documents avant de répondre. Pas d'entraînement, mais nécessite un pipeline de recherche vectorielle.

Fine-tuning (avancé) ← ce guide

Vous modifiez les poids du modèle. L'IA apprend vraiment vos données, pas juste les consulte. Réponses plus naturelles, style adapté, domaine spécifique.

En pratique, la meilleure approche est souvent de combiner les trois : fine-tuning pour le style et le domaine, RAG pour les données à jour, et prompt engineering pour les instructions spécifiques.

🔧 LoRA, QLoRA, Full Fine-tuning : quelle méthode ?

Il existe trois grandes méthodes pour fine-tuner un modèle. En 2026, QLoRA est la méthode standard car elle offre le meilleur compromis qualité/coût :

Méthode VRAM requise (7B) Qualité Vitesse GPU minimum
Full Fine-tuning

Modifie tous les poids

~60 Go ★★★★★ Très lent A100 80 Go
LoRA

Adapateurs légers

~16 Go ★★★★ Rapide RTX 4070 Ti Super
QLoRA ★

LoRA + quantification 4-bit

~6 Go ★★★★ Très rapide RTX 3060 12 Go

Comment fonctionne LoRA ?

Au lieu de modifier les milliards de paramètres du modèle, LoRA (Low-Rank Adaptation) ajoute de petites matrices "adaptateur" à côté des couches existantes. Ces adaptateurs ne représentent que 0.1% à 1% de la taille du modèle original.

QLoRA va plus loin : il charge le modèle de base en 4 bits (au lieu de 16), réduisant la VRAM de 75%. Les adaptateurs LoRA restent en 16 bits pour maintenir la qualité.

Résultat : vous pouvez fine-tuner un modèle 7B sur une RTX 3060 12 Go, ou un modèle 13B sur une RTX 4090.

🛠️ Les outils de fine-tuning en 2026

Unsloth ★ Recommandé

L'outil le plus rapide pour le fine-tuning. 2x plus rapide que les alternatives, 60% moins de VRAM. Interface simple, compatible Ollama. C'est ce qu'on utilise dans ce guide.

pip install unsloth
🔧
Axolotl

Outil plus complet, basé sur des fichiers YAML de configuration. Plus complexe mais plus flexible. Idéal pour les projets en production.

pip install axolotl
🤗
Hugging Face TRL

La librairie officielle de Hugging Face pour le fine-tuning. Plus verbeux mais extrêmement flexible. La référence pour la recherche.

pip install trl
💻
LLaMA Factory

Interface web pour le fine-tuning. Pas de code nécessaire : choisissez votre modèle, uploadez vos données, cliquez "Train". Idéal pour les débutants.

git clone llamafactory

📊 Préparer vos données

La qualité de vos données détermine la qualité du fine-tuning. La règle d'or : mieux vaut 500 exemples parfaits que 10 000 exemples médiocres.

Format JSONL

Le format standard pour le fine-tuning est JSONL (JSON Lines) : un JSON par ligne, au format conversation :

// dataset.jsonl — Un exemple par ligne
{"conversations": [
{"role": "system", "content": "Tu es un assistant spécialisé en droit français."},
{"role": "user", "content": "Quel est le délai de rétractation pour un achat en ligne ?"},
{"role": "assistant", "content": "En droit français, le délai de rétractation pour un achat en ligne est de 14 jours à compter de la réception du bien (article L221-18 du Code de la consommation). Ce délai s'applique sans avoir à justifier de motifs ni à payer de pénalités."}
]}
{"conversations": [
{"role": "system", "content": "Tu es un assistant spécialisé en droit français."},
{"role": "user", "content": "Mon propriétaire peut-il augmenter le loyer librement ?"},
{"role": "assistant", "content": "Non. En France, l'augmentation du loyer est encadrée par l'Indice de Référence des Loyers (IRL) publié par l'INSEE. Le propriétaire ne peut augmenter le loyer que dans la limite de la variation de cet indice, et uniquement si une clause de révision est prévue dans le bail."}
]}

💡 Sources de données pour le fine-tuning

Données internes
  • • FAQ et support client
  • • Documentation produit
  • • Emails types (anonymisés)
  • • Code source de votre projet
Données synthétiques
  • • Générées par Claude ou GPT-4
  • • Variations de vos données existantes
  • • Scénarios hypothétiques
  • • Traductions multilingues

Astuce : utilisez Claude ou GPT-4 pour générer des données synthétiques à partir de vos données réelles. 100 exemples réels + 400 exemples synthétiques = un excellent dataset de 500.

🚀 Tutoriel : fine-tuner avec Unsloth + Ollama

Étape 1 : Installation

# Installer les dépendances
pip install unsloth
pip install "transformers>=4.40" datasets accelerate
pip install bitsandbytes # pour la quantification 4-bit

Étape 2 : Script de fine-tuning

# finetune.py — Fine-tuning avec Unsloth
from
unsloth import FastLanguageModel
from
datasets import load_dataset
from
trl import SFTTrainer
from
transformers import TrainingArguments
# 1. Charger le modèle de base (4-bit)
model, tokenizer = FastLanguageModel.from_pretrained(
model_name = "unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit",
max_seq_length = 2048,
load_in_4bit = True,
)
# 2. Ajouter les adaptateurs LoRA
model = FastLanguageModel.get_peft_model(
model,
r = 16, # rang LoRA (16 = bon défaut)
lora_alpha = 16,
lora_dropout = 0,
target_modules = ["q_proj", "k_proj",
"v_proj", "o_proj"],
)
# 3. Charger votre dataset
dataset = load_dataset("json",
data_files="dataset.jsonl")
# 4. Lancer l'entraînement
trainer = SFTTrainer(
model = model,
tokenizer = tokenizer,
train_dataset = dataset["train"],
args = TrainingArguments(
per_device_train_batch_size = 2,
num_train_epochs = 3,
learning_rate = 2e-4,
output_dir = "outputs",
),
)
trainer.train()
# 5. Sauvegarder au format GGUF (pour Ollama)
model.save_pretrained_gguf(
"mon-modele",
tokenizer,
quantization_method = "q4_k_m"
)

Étape 3 : Importer dans Ollama

# Créer un Modelfile pour Ollama
cat > Modelfile << 'EOF'
FROM ./mon-modele-Q4_K_M.gguf
PARAMETER temperature 0.7
SYSTEM "Tu es un assistant spécialisé..."
EOF
# Importer dans Ollama
ollama create mon-assistant -f Modelfile
# Tester !
ollama run mon-assistant

🎉 Votre modèle personnalisé tourne maintenant dans Ollama, exactement comme n'importe quel autre modèle. Consultez notre guide Ollama pour plus de détails.

🎯 Cas d'usage concrets

💬
Chatbot support client

Fine-tunez un modèle 7B sur vos FAQ et historiques de tickets. Résultat : un chatbot qui répond exactement comme votre équipe, avec votre ton et votre terminologie.

Dataset : ~1000 paires question/réponse

💻
Assistant code personnalisé

Entraînez un modèle sur votre codebase. Il connaîtra vos conventions, vos APIs, vos patterns. Mieux qu'un Copilot générique.

Dataset : ~500 exemples de code + commentaires

⚖️
IA juridique française

Fine-tunez sur le Code civil, la jurisprudence, et vos modèles de contrats. Un assistant qui connaît le droit français en profondeur.

Dataset : ~2000 paires question/réponse juridiques

📊
Analyste financier

Entraînez sur vos rapports financiers, analyses de marché, et données sectorielles. Un assistant qui comprend votre métier.

Dataset : ~800 analyses formatées

💻 Matériel requis par taille de modèle

Taille modèle Méthode VRAM min GPU recommandé Prix GPU
7B (Llama 3, Mistral) QLoRA 4-bit ~6 Go RTX 3060 12 Go ~280 €
7B (recommandé) QLoRA 4-bit ~8 Go RTX 4070 Ti Super ~750 €
13B (CodeLlama, etc.) QLoRA 4-bit ~12 Go RTX 4090 24 Go ~1800 €
70B (Llama 3 70B) QLoRA 4-bit ~40 Go RTX PRO 6000 48 Go ~6500 €

🧮 Calculateur de fine-tuning

Estimez le temps d'entraînement et la VRAM nécessaire pour votre projet.

VRAM requise
VRAM disponible
Temps estimé
Taille modèle final

ⓘ Estimations approximatives avec Unsloth + QLoRA. Les temps réels varient selon le dataset, la longueur des exemples, et la température ambiante du GPU.

💡 Bonnes pratiques

1. Commencez petit

Testez d'abord avec 100 exemples et 1 époque. Vérifiez que tout fonctionne avant de lancer un entraînement long. Utilisez un modèle 3B ou 7B pour les premiers tests.

2. La qualité des données prime sur la quantité

500 exemples bien rédigés battent 10 000 exemples médiocres. Chaque exemple doit être une réponse que vous seriez fier de donner à un client.

3. Évaluez avec des exemples de test

Gardez 10-20% de vos données pour les tests. Après l'entraînement, posez ces questions au modèle et vérifiez les réponses manuellement.

4. Attention au surapprentissage (overfitting)

Si le modèle récite vos données mot pour mot au lieu de généraliser, réduisez le nombre d'époques ou augmentez le dropout. 3 époques est un bon défaut.

5. Exportez en GGUF pour Ollama

Le format GGUF est le standard pour Ollama. Unsloth exporte directement en GGUF. Choisissez la quantification Q4_K_M pour le meilleur rapport taille/qualité.

6. Stockez vos datasets sur SSD

Le chargement des données depuis un disque dur mécanique peut ralentir l'entraînement. Un SSD NVMe est fortement recommandé.

💻 Matériel recommandé

Questions fréquentes

Pour un changement de style ou de ton, 100 à 300 exemples suffisent. Pour un domaine spécifique (juridique, médical), visez 500 à 2000 exemples. Au-delà de 5000, les gains diminuent. La qualité est toujours plus importante que la quantité : 500 exemples parfaits battent 10 000 exemples médiocres.
Oui, les modèles open source comme Llama 3, Mistral, et Gemma autorisent le fine-tuning, y compris pour un usage commercial. Vérifiez la licence de chaque modèle : Llama 3 a une licence permissive (même pour les entreprises de plus de 700M d'utilisateurs). Mistral est Apache 2.0 (totalement libre).
Oui, les Mac Apple Silicon (M1/M2/M3/M4) supportent le fine-tuning via MLX, le framework machine learning d'Apple. C'est plus lent qu'un GPU NVIDIA équivalent, mais fonctionnel. Un Mac M4 Pro avec 36 Go de mémoire unifiée peut fine-tuner un modèle 7B en QLoRA. La mémoire unifiée est un avantage car elle est partagée entre CPU et GPU.
RAG si vos données changent souvent (documentation à jour, actualités, stock produit). Fine-tuning si vous voulez changer le comportement, le style, ou le domaine de spécialité du modèle. En pratique, combinez les deux : fine-tuning pour le style et le domaine général, RAG pour les données factuelles à jour.
Avec Unsloth et un GPU moderne : un modèle 7B avec 500 exemples et 3 époques prend environ 15-30 minutes sur une RTX 4070 Ti Super, et environ 5-10 minutes sur une RTX 4090. Les modèles plus gros (13B, 70B) prennent proportionnellement plus longtemps. Utilisez notre calculateur ci-dessus pour une estimation précise.