API de Texto para Fala do Google Cloud
Mais de 380 vozes em mais de 50 idiomas com WaveNet e Neural2
O Google Cloud Text-to-Speech oferece uma das maiores seleções de vozes (mais de 380) do setor, abrangendo mais de 50 idiomas e variantes. As vozes WaveNet e Neural2 produzem fala com som altamente natural usando aprendizado profundo. O generoso nível gratuito de 4 milhões de caracteres por mês faz dele a escolha ideal para prototipagem e aplicações de volume médio. O suporte a SSML oferece controle detalhado sobre pronúncia, velocidade, tom e pausas. Utilizado em sistemas de URA, ferramentas de acessibilidade, plataformas de e-learning e alto-falantes inteligentes.
Detalhes da API
Categorias
Perguntas frequentes
O Google Cloud TTS possui uma camada gratuita de 4 milhões de caracteres por mês para vozes padrão e 1 milhão de caracteres para vozes WaveNet/Neural2/Studio. Após isso: vozes padrão custam US$ 4 por milhão de caracteres; WaveNet US$ 16 por milhão; Neural2 US$ 16 por milhão; Studio (qualidade mais alta) US$ 160 por milhão de caracteres.
As vozes WaveNet são vozes geradas por IA que soam significativamente mais naturais do que as TTS padrão. As vozes Neural2 são a geração mais recente do Google, treinadas com a tecnologia WaveNet e com prosódia e naturalidade aprimoradas. As vozes Studio são o nível premium — gravadas por atores profissionais e aprimoradas por IA, soando quase indistinguíveis da fala humana.
O Google Cloud TTS suporta mais de 40 idiomas e variantes, com mais de 380 vozes no total. Isso inclui os principais idiomas do mundo, bem como variantes regionais (por exemplo, vários sotaques de inglês, português brasileiro vs. europeu). A qualidade WaveNet varia conforme o idioma — é mais forte para inglês, espanhol, francês, alemão, japonês e coreano.
O Google Cloud TTS pode gerar áudio em MP3, LINEAR16 (WAV), OGG Opus, MULAW e ALAW. Você também pode personalizar a velocidade da fala (0,25x–4x), o tom (–20 a +20 semitons) e o ganho de volume. Para aplicações de telefonia, use MULAW a 8kHz; para a maioria das aplicações, MP3 a 24kHz oferece a melhor relação tamanho/qualidade.
