Whisper : transcrire l'audio en texte gratuitement avec l'IA locale
Le modèle OpenAI qui rivalise avec les services payants — et tourne sur votre PC
« Transcrire une heure d'audio coûte entre 1 € et 25 € sur les services cloud. Avec Whisper, c'est gratuit, illimité, et vos données ne quittent jamais votre machine. »
Whisper est un modèle de reconnaissance vocale créé par OpenAI et publié en open source. Il transforme n'importe quel fichier audio ou vidéo en texte, dans plus de 99 langues, avec une précision qui rivalise avec les solutions professionnelles payantes.
Le meilleur ? Il tourne entièrement en local sur votre PC. Pas d'abonnement, pas de limite de minutes, pas de données envoyées dans le cloud. Idéal pour transcrire des réunions confidentielles, des interviews, des podcasts, ou générer des sous-titres automatiques.
Dans ce guide, on vous explique tout : installation, choix du modèle, script Python, intégration avec Ollama pour résumer automatiquement vos transcriptions, et comparaison avec les services cloud.
🤖 Qu'est-ce que Whisper ?
Whisper est un modèle de speech-to-text (parole vers texte) d'OpenAI, publié en open source en septembre 2022. Contrairement à ChatGPT, Whisper est complètement gratuit et peut tourner sur n'importe quel ordinateur.
Français, anglais, espagnol, arabe, japonais...
Aucune donnée n'est envoyée à OpenAI
Open source, pas de limite de minutes
De tiny (39M) à large (1.5B paramètres)
📊 Les 5 modèles Whisper : lequel choisir ?
Whisper propose 5 tailles de modèles. Plus le modèle est gros, plus la transcription est précise — mais plus il faut de VRAM et de temps.
| Modèle | Paramètres | VRAM | Vitesse (1h audio) | Précision FR | Recommandé |
|---|---|---|---|---|---|
| tiny | 39M | ~1 Go | ~2 min | ★★ | Tests rapides |
| base | 74M | ~1 Go | ~4 min | ★★★ | Brouillons |
| small | 244M | ~2 Go | ~8 min | ★★★★ | Bon compromis |
| medium | 769M | ~5 Go | ~15 min | ★★★★★ | ★ Recommandé |
| large-v3 | 1.5B | ~10 Go | ~30 min | ★★★★★ | Qualité max |
💡 Notre recommandation : le modèle medium offre le meilleur rapport qualité/vitesse pour le français. Il tourne sans problème sur une RTX 3060 12 Go. Si vous avez une RTX 4090, utilisez large-v3 pour la qualité maximale.
🛠️ Installation de Whisper
Prérequis
- • CPU récent (fonctionne sans GPU, mais lent)
- • 8 Go de RAM minimum
- • GPU NVIDIA avec 4+ Go VRAM (recommandé)
- • Linux, macOS ou Windows (WSL)
- • Python 3.9 à 3.11
- • FFmpeg (pour décoder l'audio)
- • CUDA toolkit (pour GPU NVIDIA)
- • pip (gestionnaire de paquets Python)
Étape 1 : Installer FFmpeg
Étape 2 : Installer Whisper
💡 faster-whisper est une réimplémentation optimisée qui utilise CTranslate2. Même qualité, 4x plus rapide, moins de VRAM. On le recommande.
Étape 3 : Première transcription
🐍 Script Python complet
Voici un script Python qui transcrit un fichier audio avec Whisper et sauvegarde le résultat en plusieurs formats :
🎯 Cas d'usage concrets
Enregistrez vos réunions (Zoom, Teams, Meet) et transcrivez-les après coup. Avec un bon microphone USB, la qualité est excellente.
Créez des transcriptions complètes de vos podcasts préférés. Idéal pour le SEO (texte indexable) ou l'accessibilité.
Générez des fichiers SRT pour vos vidéos YouTube, formations, etc. Whisper produit des timestamps précis.
Enregistrez vos cours, transcrivez-les, puis utilisez une IA comme Claude pour créer des fiches de révision automatiques.
Transcrivez des heures d'interviews en quelques minutes. En local = confidentiel. Aucun risque de fuite de données.
Whisper peut transcrire ET traduire en anglais simultanément. Audio en français → texte en anglais en une commande.
☁️ Whisper local vs services cloud : comparaison
| Critère | Whisper local | Otter.ai | Descript | API OpenAI |
|---|---|---|---|---|
| Prix / heure | Gratuit | ~2 € | ~5 € | ~0,36 € |
| Confidentialité | 🔒 Total | Cloud | Cloud | Cloud |
| Limite de minutes | Aucune | 300 min/mois | 1h gratuit | Pay-per-use |
| Précision français | ★★★★ | ★★★ | ★★★★ | ★★★★★ |
| Facilité d'usage | ★★★ | ★★★★★ | ★★★★★ | ★★★ |
🧰 Whisper + Ollama : transcrire ET résumer
La combinaison la plus puissante : Whisper transcrit l'audio, puis un LLM local via Ollama résume, extrait les actions, ou répond à vos questions sur le contenu. Tout en local, gratuit, confidentiel.
Résultat : en 5 minutes, vous passez d'un fichier audio de 2 heures à un résumé structuré avec actions. Sans internet, sans abonnement.
Votre fichier .mp3, .wav, .m4a
Transcription texte
Résumé, actions, analyse
🎮 Démo : simulation de transcription Whisper
Cliquez sur "Transcrire" pour voir une simulation de Whisper en action sur un extrait audio.
Simulation : transcription d'une réunion de 1 minute
💻 Matériel recommandé pour Whisper
Micro à condensateur USB. Qualité studio, plug & play. Idéal pour enregistrer des réunions, interviews, podcasts.
Micro de qualité broadcast, compact, USB-C. Son cristallin pour des transcriptions parfaites.
Webcam 4K avec micro intégré de qualité. Solution tout-en-un pour les réunions vidéo.
16 Go VRAM. Transcrit 1h d'audio en ~5 min avec le modèle large-v3. Aussi utile pour Ollama.
💡 Astuces pour de meilleures transcriptions
Un bon micro fait toute la différence. Un Blue Yeti à 100 € transforme la qualité de vos transcriptions. Évitez les micros intégrés de laptop.
4x plus rapide, même qualité, moins de VRAM. C'est la version que tout le monde utilise en production.
La détection automatique de langue fonctionne, mais spécifier la langue accélère le traitement et améliore la précision.
faster-whisper supporte le traitement par lots. Mettez tous vos fichiers dans un dossier et lancez un script qui les traite un par un.
Si votre GPU manque de VRAM, passez en int8. Légère perte de qualité mais le modèle large tient dans 6 Go de VRAM.