Accueil Blog Whisper transcription
🎧 IA Locale

Whisper : transcrire l'audio en texte gratuitement avec l'IA locale

Le modèle OpenAI qui rivalise avec les services payants — et tourne sur votre PC

Par l'équipe OutilsIA avril 2026 16 min de lecture

« Transcrire une heure d'audio coûte entre 1 € et 25 € sur les services cloud. Avec Whisper, c'est gratuit, illimité, et vos données ne quittent jamais votre machine. »

Whisper est un modèle de reconnaissance vocale créé par OpenAI et publié en open source. Il transforme n'importe quel fichier audio ou vidéo en texte, dans plus de 99 langues, avec une précision qui rivalise avec les solutions professionnelles payantes.

Le meilleur ? Il tourne entièrement en local sur votre PC. Pas d'abonnement, pas de limite de minutes, pas de données envoyées dans le cloud. Idéal pour transcrire des réunions confidentielles, des interviews, des podcasts, ou générer des sous-titres automatiques.

Dans ce guide, on vous explique tout : installation, choix du modèle, script Python, intégration avec Ollama pour résumer automatiquement vos transcriptions, et comparaison avec les services cloud.

🤖 Qu'est-ce que Whisper ?

Whisper est un modèle de speech-to-text (parole vers texte) d'OpenAI, publié en open source en septembre 2022. Contrairement à ChatGPT, Whisper est complètement gratuit et peut tourner sur n'importe quel ordinateur.

🎧
99 langues

Français, anglais, espagnol, arabe, japonais...

🔒
100% local

Aucune donnée n'est envoyée à OpenAI

💰
Gratuit

Open source, pas de limite de minutes

5 modèles

De tiny (39M) à large (1.5B paramètres)

📊 Les 5 modèles Whisper : lequel choisir ?

Whisper propose 5 tailles de modèles. Plus le modèle est gros, plus la transcription est précise — mais plus il faut de VRAM et de temps.

Modèle Paramètres VRAM Vitesse (1h audio) Précision FR Recommandé
tiny 39M ~1 Go ~2 min ★★ Tests rapides
base 74M ~1 Go ~4 min ★★★ Brouillons
small 244M ~2 Go ~8 min ★★★★ Bon compromis
medium 769M ~5 Go ~15 min ★★★★★ ★ Recommandé
large-v3 1.5B ~10 Go ~30 min ★★★★★ Qualité max

💡 Notre recommandation : le modèle medium offre le meilleur rapport qualité/vitesse pour le français. Il tourne sans problème sur une RTX 3060 12 Go. Si vous avez une RTX 4090, utilisez large-v3 pour la qualité maximale.

🛠️ Installation de Whisper

Prérequis

💻 Matériel minimum
  • • CPU récent (fonctionne sans GPU, mais lent)
  • • 8 Go de RAM minimum
  • • GPU NVIDIA avec 4+ Go VRAM (recommandé)
  • • Linux, macOS ou Windows (WSL)
📦 Logiciel
  • • Python 3.9 à 3.11
  • • FFmpeg (pour décoder l'audio)
  • • CUDA toolkit (pour GPU NVIDIA)
  • • pip (gestionnaire de paquets Python)

Étape 1 : Installer FFmpeg

# Ubuntu / Debian
sudo apt update && sudo apt install ffmpeg
# macOS (avec Homebrew)
brew install ffmpeg
# Windows (avec Chocolatey)
choco install ffmpeg

Étape 2 : Installer Whisper

# Créer un environnement virtuel (recommandé)
python -m venv whisper-env
source whisper-env/bin/activate
# Installer Whisper (version originale OpenAI)
pip install openai-whisper
# OU installer faster-whisper (4x plus rapide !)
pip install faster-whisper

💡 faster-whisper est une réimplémentation optimisée qui utilise CTranslate2. Même qualité, 4x plus rapide, moins de VRAM. On le recommande.

Étape 3 : Première transcription

# En ligne de commande (le plus simple)
whisper audio.mp3 --model medium --language fr
# Avec sous-titres SRT
whisper audio.mp3 --model medium --language fr --output_format srt
# Avec faster-whisper (recommandé)
faster-whisper audio.mp3 --model medium --language fr

🐍 Script Python complet

Voici un script Python qui transcrit un fichier audio avec Whisper et sauvegarde le résultat en plusieurs formats :

# transcribe.py — Script de transcription Whisper
from
faster_whisper import WhisperModel
import
sys, json, os
# Configuration
MODEL_SIZE = "medium"
DEVICE = "cuda" # ou "cpu" sans GPU
COMPUTE_TYPE = "float16" # int8 pour moins de VRAM
def
transcribe(audio_path):
# Charger le modèle
model = WhisperModel(MODEL_SIZE, device=DEVICE,
compute_type=COMPUTE_TYPE)
# Transcrire
segments, info = model.transcribe(audio_path,
language="fr",
beam_size=5)
print(f"Langue détectée: {info.language}")
print(f"Probabilité: {info.language_probability:.0%}")
# Collecter les segments
results = []
for
seg in segments:
results.append({
"start"
: seg.start,
"end"
: seg.end,
"text"
: seg.text.strip()
})
print(f"[{seg.start:.1f}s - {seg.end:.1f}s] {seg.text}")
return
results
if
__name__ == "__main__":
audio = sys.argv[1]
results = transcribe(audio)
# Sauvegarder en JSON
out = audio.rsplit(".", 1)[0] + ".json"
with
open(out, "w") as f:
json.dump(results, f, ensure_ascii=False, indent=2)
print(f"\nSauvegardé dans {out}")
# Utilisation
python transcribe.py reunion.mp3
python transcribe.py podcast.wav
python transcribe.py interview.m4a

🎯 Cas d'usage concrets

💼
Réunions de travail

Enregistrez vos réunions (Zoom, Teams, Meet) et transcrivez-les après coup. Avec un bon microphone USB, la qualité est excellente.

🎙
Podcasts

Créez des transcriptions complètes de vos podcasts préférés. Idéal pour le SEO (texte indexable) ou l'accessibilité.

🎬
Sous-titres vidéo

Générez des fichiers SRT pour vos vidéos YouTube, formations, etc. Whisper produit des timestamps précis.

🎓
Cours et conférences

Enregistrez vos cours, transcrivez-les, puis utilisez une IA comme Claude pour créer des fiches de révision automatiques.

📝
Interviews journalistiques

Transcrivez des heures d'interviews en quelques minutes. En local = confidentiel. Aucun risque de fuite de données.

🌐
Traduction automatique

Whisper peut transcrire ET traduire en anglais simultanément. Audio en français → texte en anglais en une commande.

☁️ Whisper local vs services cloud : comparaison

Critère Whisper local Otter.ai Descript API OpenAI
Prix / heure Gratuit ~2 € ~5 € ~0,36 €
Confidentialité 🔒 Total Cloud Cloud Cloud
Limite de minutes Aucune 300 min/mois 1h gratuit Pay-per-use
Précision français ★★★★ ★★★ ★★★★ ★★★★★
Facilité d'usage ★★★ ★★★★★ ★★★★★ ★★★

🧰 Whisper + Ollama : transcrire ET résumer

La combinaison la plus puissante : Whisper transcrit l'audio, puis un LLM local via Ollama résume, extrait les actions, ou répond à vos questions sur le contenu. Tout en local, gratuit, confidentiel.

# Pipeline : Whisper + Ollama
# 1. Transcrire avec Whisper
whisper reunion.mp3 --model medium --language fr \
--output_format txt --output_dir ./
# 2. Résumer avec Ollama (Mistral 7B)
cat reunion.txt | ollama run mistral \
"Résume cette réunion en 10 points clés \
et liste les actions à faire :"

Résultat : en 5 minutes, vous passez d'un fichier audio de 2 heures à un résumé structuré avec actions. Sans internet, sans abonnement.

🎧
Audio

Votre fichier .mp3, .wav, .m4a

Whisper

Transcription texte

Ollama

Résumé, actions, analyse

🎮 Démo : simulation de transcription Whisper

Cliquez sur "Transcrire" pour voir une simulation de Whisper en action sur un extrait audio.

💻 Matériel recommandé pour Whisper

💡 Astuces pour de meilleures transcriptions

Qualité audio = qualité transcription

Un bon micro fait toute la différence. Un Blue Yeti à 100 € transforme la qualité de vos transcriptions. Évitez les micros intégrés de laptop.

Utilisez faster-whisper au lieu de whisper

4x plus rapide, même qualité, moins de VRAM. C'est la version que tout le monde utilise en production.

Spécifiez la langue avec --language fr

La détection automatique de langue fonctionne, mais spécifier la langue accélère le traitement et améliore la précision.

Pour les longs fichiers, utilisez le mode batch

faster-whisper supporte le traitement par lots. Mettez tous vos fichiers dans un dossier et lancez un script qui les traite un par un.

compute_type="int8" pour économiser la VRAM

Si votre GPU manque de VRAM, passez en int8. Légère perte de qualité mais le modèle large tient dans 6 Go de VRAM.

Questions fréquentes

Oui, Whisper fonctionne sur CPU, mais c'est beaucoup plus lent. Sur CPU, le modèle medium prend environ 30 minutes pour transcrire 1 heure d'audio (vs 5 minutes sur GPU). Pour un usage régulier, un GPU est fortement recommandé. Même une RTX 3060 12 Go d'occasion fait l'affaire.
Avec le modèle medium ou large-v3, Whisper atteint environ 95-98% de précision en français dans de bonnes conditions audio. C'est comparable aux services professionnels payants. La précision baisse avec un audio de mauvaise qualité (bruit de fond, micro lointain, plusieurs locuteurs parlant en même temps).
Non, Whisper seul ne fait pas de diarization (identification des locuteurs). Mais vous pouvez combiner Whisper avec pyannote-audio, un modèle open source spécialisé dans l'identification des locuteurs. Le pipeline complet : pyannote identifie qui parle quand, et Whisper transcrit chaque segment. C'est un peu plus complexe à installer mais le résultat est excellent.
Whisper supporte tous les formats audio gérés par FFmpeg : MP3, WAV, M4A, FLAC, OGG, WMA, AAC, et bien d'autres. Il supporte aussi les fichiers vidéo (MP4, MKV, AVI) — il en extrait automatiquement la piste audio.
Oui ! Plusieurs projets offrent une interface graphique pour Whisper : Whisper Web (interface navigateur), Buzz (application desktop multiplateforme), et WhisperX (interface en ligne de commande améliorée avec diarization). Pour les non-techniciens, Buzz est la solution la plus simple à installer et utiliser.