Question 1

Was unterscheidet AssemblyAI von anderen Transkriptions-APIs?

Accepted Answer

AssemblyAI bietet mehr als nur Transkription – es umfasst Sprecher-Diarisation (wer hat was gesagt), Sentiment-Analyse, Inhaltsmoderation, Kapitel-Erkennung, Entitätenerkennung und PII-Redaktion, alles in einem einzigen API-Aufruf. Dadurch ist es deutlich leistungsfähiger als reine Transkriptions-APIs wie Whisper, wenn es um die Entwicklung produktiver Audio-Intelligence-Anwendungen geht.

Question 2

Wie viel kostet AssemblyAI?

Accepted Answer

AssemblyAI-Preise: Die Kerntranskription kostet 0,37 $ pro Stunde Audio. Sprecher-Diarisation kostet zusätzlich 0,52 $/Stunde. Sentiment-Analyse und Entitätenerkennung kosten jeweils 0,13 $/Stunde extra. PII-Redaktion kostet 0,26 $/Stunde. Es gibt eine kostenlose Stufe mit begrenzter Nutzung. Im Vergleich zu Alternativen ist AssemblyAI für das kombinierte Funktionsangebot wettbewerbsfähig bepreist.

Question 3

Unterstützt AssemblyAI Echtzeit-Transkription?

Accepted Answer

Ja. AssemblyAI bietet eine Streaming Speech-to-Text-API, die Echtzeit-Transkription über WebSocket-Verbindungen mit weniger als 300 ms Latenz ermöglicht. Dies eignet sich für Live-Untertitelung, Sprachassistenten und Echtzeit-Meeting-Intelligence. Die Preise für Echtzeit-Transkription liegen bei 0,65 $ pro Stunde und sind damit etwas höher als bei asynchroner Transkription.

Question 4

Was ist LeMUR und wie funktioniert es?

Accepted Answer

LeMUR ist das LLM-Framework von AssemblyAI, das auf der Transkription aufbaut. Es ermöglicht, Fragen zu Audioinhalten zu stellen – z. B. ein Meeting zusammenzufassen, To-dos zu extrahieren oder Fragen zu einem Podcast zu beantworten – und nutzt dabei Claude oder andere LLMs über die einheitliche API von AssemblyAI. Das vereinfacht die Entwicklung von Audio-Intelligence-Funktionen, ohne separate Transkriptions- und LLM-Integrationen verwalten zu müssen.

AssemblyAI API

API-Details

Kategorien

Häufig gestellte Fragen