ElevenLabs API
Ultrarealistische KI-Stimmenklonung und Text-zu-Sprache
ElevenLabs ist der Goldstandard für KI-Sprachsynthese und bietet die realistischste Text-zu-Sprache- und Stimmklon-Technologie, die über eine API verfügbar ist. Die API unterstützt über 29 Sprachen, Echtzeit-Streaming-Audio, individuelles Stimmklonen aus Audioaufnahmen und Kontrolle des emotionalen Tons. Weit verbreitet für Hörbücher, Podcasts, Videospiele, Synchronisation und Barrierefreiheits-Tools. Mit der Voice Design-Funktion können Entwickler völlig neue Stimmen aus Textbeschreibungen generieren. Das großzügige kostenlose Kontingent (10.000 Zeichen/Monat) macht es für Indie-Entwickler zugänglich, mit kostenpflichtigen Tarifen ab 5 $/Monat.
API-Details
Kategorien
Häufig gestellte Fragen
Die Preise von ElevenLabs basieren auf der Anzahl der generierten Zeichen. Die kostenlose Stufe bietet 10.000 Zeichen pro Monat. Der Starter-Tarif (5 $/Monat) bietet 30.000 Zeichen. Creator (22 $/Monat) bietet 100.000 Zeichen. Pro-Tarife beginnen bei 99 $/Monat für 500.000 Zeichen. Für Unternehmen gibt es individuelle Volumenpreise. Audio entspricht etwa 800 Zeichen pro Minute gesprochener Sprache.
Ja. ElevenLabs bietet Instant Voice Cloning (1-minütige Audioaufnahme, verfügbar ab dem Starter-Tarif) und Professional Voice Cloning (über 30 Minuten Audio, deutlich genauer, verfügbar ab dem Creator-Tarif). Geklonte Stimmen können privat über die API genutzt oder (mit Zustimmung) im Voice Marketplace geteilt werden.
ElevenLabs unterstützt 29 Sprachen, darunter Englisch, Spanisch, Französisch, Deutsch, Chinesisch (Mandarin), Japanisch, Koreanisch, Hindi, Arabisch und Portugiesisch. Die Sprachqualität variiert je nach Sprache – Englisch ist am besten, aber die Qualität für große Weltsprachen liegt deutlich über der Konkurrenz. Das mehrsprachige v2-Modell ermöglicht Code-Switching zwischen den Sprachen.
Eleven Multilingual v2 ist das empfohlene Modell für die meisten Anwendungsfälle – beste Qualität und Unterstützung für 29 Sprachen. Eleven Turbo v2.5 ist für Anwendungen mit niedriger Latenz wie Sprachagenten (unter 300 ms). Eleven Flash v2.5 ist am schnellsten. Für Conversational-AI-Anwendungen sollte Eleven Turbo v2.5 verwendet werden, um die Antwortlatenz zu minimieren.
