API de texto a voz de Google Cloud
Más de 380 voces en más de 50 idiomas con WaveNet y Neural2
Google Cloud Text-to-Speech ofrece una de las selecciones más amplias de voces (más de 380) en la industria, abarcando más de 50 idiomas y variantes. Las voces WaveNet y Neural2 producen un habla altamente natural utilizando aprendizaje profundo. El generoso nivel gratuito de 4 millones de caracteres al mes lo convierte en la opción preferida para la creación de prototipos y aplicaciones de volumen medio. El soporte para SSML brinda un control detallado sobre la pronunciación, la velocidad, el tono y las pausas. Se utiliza en sistemas IVR, herramientas de accesibilidad, plataformas de aprendizaje en línea y altavoces inteligentes.
Detalles de la API
Categorías
Preguntas frecuentes
Google Cloud TTS tiene un nivel gratuito de 4 millones de caracteres por mes para voces estándar y 1 millón de caracteres para voces WaveNet/Neural2/Studio. Después de eso: Las voces estándar cuestan $4 por millón de caracteres; WaveNet $16 por millón; Neural2 $16 por millón; Studio (máxima calidad) $160 por millón de caracteres.
Las voces WaveNet son voces generadas por IA que suenan significativamente más naturales que las voces TTS estándar. Las voces Neural2 son la última generación de Google, entrenadas con tecnología WaveNet y con una prosodia y naturalidad mejoradas. Las voces Studio son el nivel premium — grabadas por actores de voz profesionales y mejoradas por IA, suenan casi indistinguibles del habla humana.
Google Cloud TTS admite más de 40 idiomas y variantes, con más de 380 voces en total. Esto incluye los principales idiomas del mundo, así como variantes regionales (por ejemplo, varios acentos de inglés, portugués brasileño vs. europeo). La calidad WaveNet varía según el idioma — es más fuerte para inglés, español, francés, alemán, japonés y coreano.
Google Cloud TTS puede exportar audio en MP3, LINEAR16 (WAV), OGG Opus, MULAW y ALAW. También puedes personalizar la velocidad de habla (0.25x–4x), el tono (–20 a +20 semitonos) y la ganancia de volumen. Para aplicaciones de telefonía, usa MULAW a 8kHz; para la mayoría de aplicaciones, MP3 a 24kHz ofrece la mejor relación tamaño-calidad.
