Whisper fonctionne-t-il sans GPU ?

Oui, Whisper fonctionne sur CPU, mais c'est beaucoup plus lent. Sur CPU, le modèle medium prend environ 30 minutes pour transcrire 1 heure d'audio (vs 5 minutes sur GPU). Pour un usage régulier, un GPU est fortement recommandé.

Quelle est la précision de Whisper en français ?

Avec le modèle medium ou large-v3, Whisper atteint environ 95-98% de précision en français dans de bonnes conditions audio. C'est comparable aux services professionnels payants.

Whisper peut-il identifier qui parle (diarization) ?

Non, Whisper seul ne fait pas de diarization. Mais vous pouvez combiner Whisper avec pyannote-audio, un modèle open source spécialisé dans l'identification des locuteurs.

Quels formats audio sont supportés ?

Whisper supporte tous les formats audio gérés par FFmpeg : MP3, WAV, M4A, FLAC, OGG, WMA, AAC. Il supporte aussi les fichiers vidéo (MP4, MKV, AVI) dont il extrait automatiquement la piste audio.

Existe-t-il une interface graphique pour Whisper ?

Oui ! Plusieurs projets offrent une interface graphique : Whisper Web (navigateur), Buzz (application desktop multiplateforme), et WhisperX (ligne de commande améliorée avec diarization). Buzz est la solution la plus simple pour les non-techniciens.

Whisper : transcrire l'audio en texte gratuitement avec l'IA locale

« Transcrire une heure d'audio coûte entre 1 € et 25 € sur les services cloud. Avec Whisper, c'est gratuit, illimité, et vos données ne quittent jamais votre machine. »

Whisper est un modèle de reconnaissance vocale créé par OpenAI et publié en open source. Il transforme n'importe quel fichier audio ou vidéo en texte, dans plus de 99 langues, avec une précision qui rivalise avec les solutions professionnelles payantes.

Le meilleur ? Il tourne entièrement en local sur votre PC. Pas d'abonnement, pas de limite de minutes, pas de données envoyées dans le cloud. Idéal pour transcrire des réunions confidentielles, des interviews, des podcasts, ou générer des sous-titres automatiques.

Dans ce guide, on vous explique tout : installation, choix du modèle, script Python, intégration avec Ollama pour résumer automatiquement vos transcriptions, et comparaison avec les services cloud.

🤖 Qu'est-ce que Whisper ?

Whisper est un modèle de speech-to-text (parole vers texte) d'OpenAI, publié en open source en septembre 2022. Contrairement à ChatGPT, Whisper est complètement gratuit et peut tourner sur n'importe quel ordinateur.

🎧

99 langues

Français, anglais, espagnol, arabe, japonais...

🔒

100% local

Aucune donnée n'est envoyée à OpenAI

💰

Gratuit

Open source, pas de limite de minutes

⚡

5 modèles

De tiny (39M) à large (1.5B paramètres)

📊 Les 5 modèles Whisper : lequel choisir ?

Whisper propose 5 tailles de modèles. Plus le modèle est gros, plus la transcription est précise — mais plus il faut de VRAM et de temps.

Modèle	Paramètres	VRAM	Vitesse (1h audio)	Précision FR	Recommandé
tiny	39M	~1 Go	~2 min	★★	Tests rapides
base	74M	~1 Go	~4 min	★★★	Brouillons
small	244M	~2 Go	~8 min	★★★★	Bon compromis
medium	769M	~5 Go	~15 min	★★★★★	★ Recommandé
large-v3	1.5B	~10 Go	~30 min	★★★★★	Qualité max

💡 Notre recommandation : le modèle medium offre le meilleur rapport qualité/vitesse pour le français. Il tourne sans problème sur une RTX 3060 12 Go. Si vous avez une RTX 4090, utilisez large-v3 pour la qualité maximale.

🛠️ Installation de Whisper

Prérequis

💻 Matériel minimum

• CPU récent (fonctionne sans GPU, mais lent)
• 8 Go de RAM minimum
• GPU NVIDIA avec 4+ Go VRAM (recommandé)
• Linux, macOS ou Windows (WSL)

📦 Logiciel

• Python 3.9 à 3.11
• FFmpeg (pour décoder l'audio)
• CUDA toolkit (pour GPU NVIDIA)
• pip (gestionnaire de paquets Python)

Étape 1 : Installer FFmpeg

# Ubuntu / Debian

sudo apt update && sudo apt install ffmpeg

# macOS (avec Homebrew)

brew install ffmpeg

# Windows (avec Chocolatey)

choco install ffmpeg

Étape 2 : Installer Whisper

# Créer un environnement virtuel (recommandé)

python -m venv whisper-env

source whisper-env/bin/activate

# Installer Whisper (version originale OpenAI)

pip install openai-whisper

# OU installer faster-whisper (4x plus rapide !)

pip install faster-whisper

💡 faster-whisper est une réimplémentation optimisée qui utilise CTranslate2. Même qualité, 4x plus rapide, moins de VRAM. On le recommande.

Étape 3 : Première transcription

# En ligne de commande (le plus simple)

whisper audio.mp3 --model medium --language fr

# Avec sous-titres SRT

whisper audio.mp3 --model medium --language fr --output_format srt

# Avec faster-whisper (recommandé)

faster-whisper audio.mp3 --model medium --language fr

🐍 Script Python complet

Voici un script Python qui transcrit un fichier audio avec Whisper et sauvegarde le résultat en plusieurs formats :

# transcribe.py — Script de transcription Whisper

from

faster_whisper import WhisperModel

import

sys, json, os

# Configuration

MODEL_SIZE = "medium"

DEVICE = "cuda" # ou "cpu" sans GPU

COMPUTE_TYPE = "float16" # int8 pour moins de VRAM

def

transcribe(audio_path):

# Charger le modèle

model = WhisperModel(MODEL_SIZE, device=DEVICE,

compute_type=COMPUTE_TYPE)

# Transcrire

segments, info = model.transcribe(audio_path,

language="fr",

beam_size=5)

print(f"Langue détectée: {info.language}")

print(f"Probabilité: {info.language_probability:.0%}")

# Collecter les segments

results = []

for

seg in segments:

results.append({

"start"

: seg.start,

"end"

: seg.end,

"text"

: seg.text.strip()

})

print(f"[{seg.start:.1f}s - {seg.end:.1f}s] {seg.text}")

return

results

__name__ == "__main__":

audio = sys.argv[1]

results = transcribe(audio)

# Sauvegarder en JSON

out = audio.rsplit(".", 1)[0] + ".json"

with

open(out, "w") as f:

json.dump(results, f, ensure_ascii=False, indent=2)

print(f"\nSauvegardé dans {out}")

# Utilisation

python transcribe.py reunion.mp3

python transcribe.py podcast.wav

python transcribe.py interview.m4a

🎯 Cas d'usage concrets

💼

Réunions de travail

Enregistrez vos réunions (Zoom, Teams, Meet) et transcrivez-les après coup. Avec un bon microphone USB, la qualité est excellente.

🎙

Podcasts

Créez des transcriptions complètes de vos podcasts préférés. Idéal pour le SEO (texte indexable) ou l'accessibilité.

🎬

Sous-titres vidéo

Générez des fichiers SRT pour vos vidéos YouTube, formations, etc. Whisper produit des timestamps précis.

🎓

Cours et conférences

Enregistrez vos cours, transcrivez-les, puis utilisez une IA comme Claude pour créer des fiches de révision automatiques.

📝

Interviews journalistiques

Transcrivez des heures d'interviews en quelques minutes. En local = confidentiel. Aucun risque de fuite de données.

🌐

Traduction automatique

Whisper peut transcrire ET traduire en anglais simultanément. Audio en français → texte en anglais en une commande.

☁️ Whisper local vs services cloud : comparaison

Critère	Whisper local	Otter.ai	Descript	API OpenAI
Prix / heure	Gratuit	~2 €	~5 €	~0,36 €
Confidentialité	🔒 Total	Cloud	Cloud	Cloud
Limite de minutes	Aucune	300 min/mois	1h gratuit	Pay-per-use
Précision français	★★★★	★★★	★★★★	★★★★★
Facilité d'usage	★★★	★★★★★	★★★★★	★★★

🧰 Whisper + Ollama : transcrire ET résumer

La combinaison la plus puissante : Whisper transcrit l'audio, puis un LLM local via Ollama résume, extrait les actions, ou répond à vos questions sur le contenu. Tout en local, gratuit, confidentiel.

# Pipeline : Whisper + Ollama

# 1. Transcrire avec Whisper

whisper reunion.mp3 --model medium --language fr \

--output_format txt --output_dir ./

# 2. Résumer avec Ollama (Mistral 7B)

cat reunion.txt | ollama run mistral \

"Résume cette réunion en 10 points clés \

et liste les actions à faire :"

Résultat : en 5 minutes, vous passez d'un fichier audio de 2 heures à un résumé structuré avec actions. Sans internet, sans abonnement.

🎧

Audio

Votre fichier .mp3, .wav, .m4a