API AssemblyAI
Reconnaissance vocale + intelligence audio, transcription, sentiment, résumés
AssemblyAI va au-delà de la simple transcription pour offrir une plateforme complète d’intelligence audio. En plus d’une reconnaissance vocale très précise dans plus de 99 langues, elle propose l’analyse de sentiment, la diarisation des locuteurs, la détection de sujets, la modération de contenu, la suppression des informations personnelles (PII) et la génération automatique de chapitres via une seule API. La transcription en streaming en temps réel prend en charge les flux audio en direct. Largement utilisée par les plateformes de podcasts, les outils de réunion, les centres d’appels et les entreprises de médias. L’une des meilleures offres gratuites du secteur des API vocales avec 50 $ de crédit.
Détails de l'API
Catégories
Foire aux questions
AssemblyAI offre plus que la transcription — il inclut la diarisation des locuteurs (qui a dit quoi), l'analyse de sentiment, la modération de contenu, la détection de chapitres, la reconnaissance d'entités et la rédaction de PII, le tout en un seul appel d'API. Cela le rend nettement plus puissant que les API de transcription brutes comme Whisper pour la création d'applications d'intelligence audio en production.
Tarification d'AssemblyAI : la transcription de base coûte 0,37 $ par heure d'audio. La diarisation des locuteurs ajoute 0,52 $/heure. L'analyse de sentiment et la détection d'entités ajoutent chacune 0,13 $/heure. La rédaction de PII coûte 0,26 $/heure. Il existe un niveau gratuit avec une utilisation limitée. Comparé aux alternatives, AssemblyAI est compétitif pour l'ensemble des fonctionnalités proposées.
Oui. AssemblyAI propose une API de transcription vocale en streaming qui fournit une transcription en temps réel via des connexions WebSocket avec une latence inférieure à 300 ms. Cela convient au sous-titrage en direct, aux agents vocaux et à l'intelligence de réunion en temps réel. Le prix en temps réel est de 0,65 $ par heure, légèrement supérieur à la transcription asynchrone.
LeMUR est le cadre LLM d'AssemblyAI construit au-dessus de la transcription. Il vous permet de poser des questions sur le contenu audio — résumer une réunion, extraire des points d'action, répondre à des questions sur un podcast — en utilisant Claude ou d'autres LLM via l'API unifiée d'AssemblyAI. Cela simplifie la création de fonctionnalités d'intelligence audio sans avoir à gérer séparément la transcription et l'intégration LLM.
