API de texto a voz de Google Cloud

Q: ¿Cuánto cuesta Google Cloud Text-to-Speech?

Google Cloud TTS tiene un nivel gratuito de 4 millones de caracteres por mes para voces estándar y 1 millón de caracteres para voces WaveNet/Neural2/Studio. Después de eso: Las voces estándar cuestan $4 por millón de caracteres; WaveNet $16 por millón; Neural2 $16 por millón; Studio (máxima calidad) $160 por millón de caracteres.

Q: ¿Qué son las voces WaveNet y en qué se diferencian?

Las voces WaveNet son voces generadas por IA que suenan significativamente más naturales que las voces TTS estándar. Las voces Neural2 son la última generación de Google, entrenadas con tecnología WaveNet y con una prosodia y naturalidad mejoradas. Las voces Studio son el nivel premium — grabadas por actores de voz profesionales y mejoradas por IA, suenan casi indistinguibles del habla humana.

Q: ¿Cuántos idiomas admite Google Cloud TTS?

Google Cloud TTS admite más de 40 idiomas y variantes, con más de 380 voces en total. Esto incluye los principales idiomas del mundo, así como variantes regionales (por ejemplo, varios acentos de inglés, portugués brasileño vs. europeo). La calidad WaveNet varía según el idioma — es más fuerte para inglés, español, francés, alemán, japonés y coreano.

Q: ¿En qué formatos de audio puede exportar Google Cloud TTS?

Google Cloud TTS puede exportar audio en MP3, LINEAR16 (WAV), OGG Opus, MULAW y ALAW. También puedes personalizar la velocidad de habla (0.25x–4x), el tono (–20 a +20 semitonos) y la ganancia de volumen. Para aplicaciones de telefonía, usa MULAW a 8kHz; para la mayoría de aplicaciones, MP3 a 24kHz ofrece la mejor relación tamaño-calidad.

Más de 380 voces en más de 50 idiomas con WaveNet y Neural2

Freemium ✓ Verificado ★ 4.6 🇺🇸 Estados Unidos

Ver documentación → Visitar sitio web

Google Cloud Text-to-Speech ofrece una de las selecciones más amplias de voces (más de 380) en la industria, abarcando más de 50 idiomas y variantes. Las voces WaveNet y Neural2 producen un habla altamente natural utilizando aprendizaje profundo. El generoso nivel gratuito de 4 millones de caracteres al mes lo convierte en la opción preferida para la creación de prototipos y aplicaciones de volumen medio. El soporte para SSML brinda un control detallado sobre la pronunciación, la velocidad, el tono y las pausas. Se utiliza en sistemas IVR, herramientas de accesibilidad, plataformas de aprendizaje en línea y altavoces inteligentes.

Detalles de la API

Método de autenticación

Clave API

Modelo de precios

Freemium

Plan gratuito

Sí — 4 millones de caracteres/mes gratis

Límite de solicitudes

300 RPM

Formato

REST / JSON / gRPC

Control de versiones

v1, v1beta1

SLA / Disponibilidad

99.9%

Cumplimiento normativo

SOC 2, ISO 27001, HIPAA, RGPD

Restricciones geográficas

Global (más de 30 regiones)

Última verificación

2026-02-20

Categorías

Voz y habla

Preguntas frecuentes

¿Cuánto cuesta Google Cloud Text-to-Speech?

¿Qué son las voces WaveNet y en qué se diferencian?

¿Cuántos idiomas admite Google Cloud TTS?

¿En qué formatos de audio puede exportar Google Cloud TTS?