Question 1

¿Qué hace que AssemblyAI sea diferente de otras APIs de transcripción?

Accepted Answer

AssemblyAI ofrece más que solo transcripción: incluye diarización de hablantes (quién dijo qué), análisis de sentimiento, moderación de contenido, detección de capítulos, reconocimiento de entidades y redacción de PII, todo en una sola llamada a la API. Esto lo hace significativamente más potente que las APIs de transcripción básicas como Whisper para construir aplicaciones de inteligencia de audio en producción.

Question 2

¿Cuánto cuesta AssemblyAI?

Accepted Answer

Precios de AssemblyAI: La transcripción básica cuesta $0.37 por hora de audio. La diarización de hablantes añade $0.52/hora. El análisis de sentimiento y la detección de entidades añaden $0.13/hora cada uno. La redacción de PII cuesta $0.26/hora. Hay un nivel gratuito con uso limitado. En comparación con alternativas, AssemblyAI tiene un precio competitivo para el conjunto de funciones combinadas que ofrece.

Question 3

¿AssemblyAI admite transcripción en tiempo real?

Accepted Answer

Sí. AssemblyAI ofrece una API de Transcripción de Voz a Texto en Streaming que proporciona transcripción en tiempo real a través de conexiones WebSocket con una latencia inferior a 300 ms. Esto es adecuado para subtitulado en vivo, agentes de voz e inteligencia de reuniones en tiempo real. El precio en tiempo real es de $0.65 por hora, ligeramente superior al de la transcripción asíncrona.

Question 4

¿Qué es LeMUR y cómo funciona?

Accepted Answer

LeMUR es el marco LLM de AssemblyAI construido sobre la transcripción. Permite hacer preguntas sobre contenido de audio —resumir una reunión, extraer tareas, responder preguntas sobre un pódcast— usando Claude u otros LLMs a través de la API unificada de AssemblyAI. Esto simplifica la creación de funciones de inteligencia de audio sin gestionar integraciones separadas de transcripción y LLM.

API de AssemblyAI

Detalles de la API

Categorías

Preguntas frecuentes