Google Cloud Text-to-Speech API
Über 380 Stimmen in mehr als 50 Sprachen mit WaveNet und Neural2
Google Cloud Text-to-Speech bietet eine der größten Auswahlen an Stimmen (über 380) in der Branche, verteilt auf mehr als 50 Sprachen und Varianten. WaveNet- und Neural2-Stimmen erzeugen mithilfe von Deep Learning eine äußerst natürlich klingende Sprache. Das großzügige kostenlose Kontingent von 4 Millionen Zeichen pro Monat macht es zur ersten Wahl für Prototyping und Anwendungen mit mittlerem Volumen. Die SSML-Unterstützung ermöglicht eine präzise Steuerung von Aussprache, Geschwindigkeit, Tonhöhe und Pausen. Wird in IVR-Systemen, Barrierefreiheits-Tools, E-Learning-Plattformen und Smart Speakern eingesetzt.
API-Details
Kategorien
Häufig gestellte Fragen
Google Cloud TTS bietet ein kostenloses Kontingent von 4 Millionen Zeichen pro Monat für Standardstimmen und 1 Million Zeichen für WaveNet/Neural2/Studio-Stimmen. Danach gilt: Standardstimmen kosten 4 $ pro Million Zeichen; WaveNet 16 $ pro Million; Neural2 16 $ pro Million; Studio (höchste Qualität) 160 $ pro Million Zeichen.
WaveNet-Stimmen sind KI-generierte Stimmen, die deutlich natürlicher klingen als Standard-TTS. Neural2-Stimmen sind Googles neueste Generation, basierend auf WaveNet-Technologie mit verbesserter Prosodie und Natürlichkeit. Studio-Stimmen sind die Premium-Stufe – von professionellen Sprechern aufgenommen und durch KI verbessert, sodass sie nahezu nicht mehr von menschlicher Sprache zu unterscheiden sind.
Google Cloud TTS unterstützt über 40 Sprachen und Varianten mit insgesamt mehr als 380 Stimmen. Dazu gehören wichtige Weltsprachen sowie regionale Varianten (z. B. verschiedene englische Akzente, brasilianisches vs. europäisches Portugiesisch). Die WaveNet-Qualität variiert je nach Sprache – sie ist am besten für Englisch, Spanisch, Französisch, Deutsch, Japanisch und Koreanisch.
Google Cloud TTS kann MP3, LINEAR16 (WAV), OGG Opus, MULAW und ALAW ausgeben. Sie können außerdem die Sprechgeschwindigkeit (0,25x–4x), Tonhöhe (–20 bis +20 Halbtöne) und Lautstärke anpassen. Für Telefonieanwendungen empfiehlt sich MULAW bei 8 kHz; für die meisten Anwendungen bietet MP3 bei 24 kHz das beste Verhältnis von Größe zu Qualität.
