API Whisper d’OpenAI
Transcription open source de la parole en texte dans 99 langues
L’API Whisper d’OpenAI offre une reconnaissance vocale automatique (ASR) de pointe pour 99 langues à 0,006 $ par minute. Basée sur le modèle open source Whisper large-v2, elle gère de manière robuste les accents, le bruit de fond et le vocabulaire technique. Prend en charge la transcription et la traduction vers l’anglais. Disponible à la fois en tant qu’API hébergée et en tant que modèle open source auto-hébergeable. Largement utilisée pour les services de transcription, les assistants vocaux, la synthèse de réunions et les applications d’accessibilité.
Détails de l'API
Catégories
Foire aux questions
Vous pouvez télécharger des fichiers audio et vidéo standards, comme des MP3 ou des MP4, pour générer instantanément un texte d'une grande précision. L'outil est conçu pour reconnaître différents intervenants, filtrer les bruits de fond et gérer un jargon technique complexe, ce qui le rend extrêmement utile pour transcrire des interviews de podcasts ou des tables rondes d'experts pour votre site web sur l'IA et l'économie.
La tarification est extrêmement abordable, fonctionnant sur un modèle à la demande qui facture actuellement moins d'un centime par minute d'audio traité. Cela en fait une solution très économique pour transcrire de grandes quantités d'entretiens de recherche ou d'analyses de marché sans avoir à mettre en place et gérer vos propres serveurs coûteux.
Oui, le modèle est entraîné sur une grande quantité de données multilingues et prend en charge près d'une centaine de langues différentes. Vous pouvez même l'utiliser pour traduire automatiquement un audio étranger directement en texte anglais, ce qui fait gagner énormément de temps lorsque vous recherchez des rapports internationaux à localiser ensuite pour vos publics allemand, espagnol, français, portugais brésilien et chinois.
La principale restriction à garder à l'esprit est que l'API n'accepte que les fichiers allant jusqu'à vingt-cinq mégaoctets par requête. Si vous essayez de transcrire un long débat crypto de deux heures, votre code PHP devra simplement découper ce gros fichier audio en morceaux plus petits avant de l'envoyer au service.
