Google Cloud 文字转语音 API

Q: Google Cloud Text-to-Speech 的费用是多少？

Google Cloud TTS 提供免费额度：标准语音每月 400 万字符，WaveNet/Neural2/Studio 语音每月 100 万字符。超出后：标准语音每百万字符收费 4 美元；WaveNet 每百万字符 16 美元；Neural2 每百万字符 16 美元；Studio（最高质量）每百万字符 160 美元。

Q: 什么是 WaveNet 语音，它们有何不同？

WaveNet 语音是由人工智能生成的语音，比标准 TTS 更加自然。Neural2 语音是 Google 最新一代产品，基于 WaveNet 技术训练，语调和自然度进一步提升。Studio 语音是高级版本——由专业配音演员录制，并通过 AI 增强，几乎与真人语音难以区分。

Q: Google Cloud TTS 支持多少种语言？

Google Cloud TTS 支持 40 多种语言及其变体，总计超过 380 种语音。这包括主要的世界语言以及地区变体（如多种英语口音、巴西葡萄牙语与欧洲葡萄牙语）。WaveNet 语音的质量因语言而异——在英语、西班牙语、法语、德语、日语和韩语中表现最佳。

Q: Google Cloud TTS 可以输出哪些音频格式？

Google Cloud TTS 可输出 MP3、LINEAR16（WAV）、OGG Opus、MULAW 和 ALAW 音频。你还可以自定义语速（0.25x–4x）、音调（-20 到 +20 个半音）和音量增益。用于电话应用时，建议使用 8kHz 的 MULAW；大多数应用场景下，24kHz 的 MP3 提供最佳的体积与音质平衡。

通过 WaveNet 和 Neural2，支持 50 多种语言的 380 多种语音

免费增值 ✓ 已认证 ★ 4.6 🇺🇸 美国

查看文档 → 访问官网

Google Cloud Text-to-Speech 在业界提供了最广泛的语音选择之一，涵盖 50 多种语言和变体，共有 380 多种语音。WaveNet 和 Neural2 语音通过深度学习生成高度自然的语音。每月 400 万字符的慷慨免费额度，使其成为原型开发和中等规模应用的首选。SSML 支持可对发音、语速、音调和停顿进行精细控制。广泛应用于 IVR 系统、辅助工具、在线学习平台和智能音箱。

API 详情

认证方式

API 密钥

定价模式

免费增值

免费额度

是的 — 每月免费提供400万字符

请求限制

300 转/分钟

数据格式

REST / JSON / gRPC

版本策略

v1，v1beta1

SLA / 可用率

99.9%

合规认证

SOC 2，ISO 27001，HIPAA，GDPR

地理限制

全球（30多个地区）

类别

语音与声音

常见问题

Google Cloud Text-to-Speech 的费用是多少？

什么是 WaveNet 语音，它们有何不同？

Google Cloud TTS 支持多少种语言？

Google Cloud TTS 可以输出哪些音频格式？