Vizion Web
IA & LLM

Whisper

Définition

Modèle d'OpenAI pour la transcription audio multilingue. Très fiable pour transformer un enregistrement vocal ou une réunion en texte structuré.

Comment ça marche

Whisper est le modèle d'OpenAI dédié à la transcription audio (speech-to-text). Il convertit un fichier vocal en texte écrit avec une bonne fiabilité, y compris sur des accents, des bruits de fond modérés ou plusieurs langues mélangées dans une même phrase. Le modèle a été entraîné sur 680 000 heures d'audio multilingue, ce qui lui donne une robustesse rare sur les conditions réelles. Il gère plus de 100 langues en transcription, et propose en plus une traduction directe vers l'anglais. La version actuelle (large-v3) atteint des taux d'erreur de 5 à 10% sur du français propre, bien meilleur que la plupart des concurrents open-source.

Les usages typiques

Cas concrets : transcription de réunions internes ou de calls clients pour archivage et analyse, sous-titrage automatique de vidéos YouTube ou de webinaires, voix-à-texte pour applications mobiles (dictée, recherche vocale), traitement de messages vocaux laissés par des clients, transcription de podcasts pour générer leur version texte indexable, analyse de calls support pour mesurer la satisfaction. On le combine souvent avec un LLM en aval pour résumer, structurer ou extraire des décisions de la transcription brute. Le combo Whisper + GPT/Claude est devenu standard pour tout pipeline audio.

API versus open-source

Whisper existe sous deux formes. L'API OpenAI : appel HTTP, facturation à la minute audio, transcription en quelques secondes, zéro infrastructure à gérer, idéal pour démarrer ou pour des volumes modérés. L'open-source : modèle téléchargeable disponible sur Hugging Face (tiny, base, small, medium, large), qu'on fait tourner localement ou sur GPU dédié. L'open-source permet la transcription locale ou sur infra dédiée, utile pour les données sensibles (santé, défense), les gros volumes (où l'API coûte trop cher), ou les contraintes de latence (transcription en streaming temps réel). Whisper.cpp permet même de l'exécuter sur CPU.

Les coûts et la latence

L'API OpenAI Whisper coûte $0.006 par minute audio en 2025. C'est très compétitif comparé à AWS Transcribe ou Google Speech-to-Text. Pour 100 heures de transcription, on parle de 36 dollars. La latence est typiquement de 10 à 30% de la durée audio : un fichier d'1 minute est transcrit en 6 à 18 secondes. Pour du temps réel (streaming), l'API standard ne convient pas, on utilise plutôt l'API Realtime d'OpenAI ou Whisper open-source avec optimisations (Faster Whisper, distil-whisper). En self-hosted, le coût se réduit au prix du GPU, intéressant au-delà de quelques milliers d'heures par mois.

Les alternatives

Plusieurs concurrents existent. AssemblyAI propose une API premium avec diarization (qui parle quand), modération, sentiment. Deepgram excelle en streaming temps réel à bas coût. AWS Transcribe et Google Speech-to-Text sont intégrés aux écosystèmes cloud. Côté open-source au-delà de Whisper, NVIDIA NeMo, FastConformer et les modèles de Meta atteignent des performances proches. Pour le français spécifiquement, Whisper large-v3 reste un excellent compromis. Pour des langues moins représentées (langues régionales, créoles), on évalue les options au cas par cas, parfois en fine-tunant Whisper sur le domaine cible.

Les pièges à éviter

Trois pièges. Ignorer la diarization quand on transcrit un dialogue : Whisper ne distingue pas qui parle, on doit combiner avec pyannote-audio ou utiliser AssemblyAI qui le fait nativement. Sous-estimer le bruit de fond : Whisper gère bien le bruit modéré mais peine sur les enregistrements très dégradés ; on prétraite avec un denoiser (RNNoise, Adobe Enhance) si nécessaire. Et oublier la conformité : transcrire des appels clients sans avoir collecté le consentement explicite est une violation RGPD. On documente la base légale et on informe les participants avant tout traitement.