Google Cloud Text-to-Speech 在业界提供了最广泛的语音选择之一,涵盖 50 多种语言和变体,共有 380 多种语音。WaveNet 和 Neural2 语音通过深度学习生成高度自然的语音。每月 400 万字符的慷慨免费额度,使其成为原型开发和中等规模应用的首选。SSML 支持可对发音、语速、音调和停顿进行精细控制。广泛应用于 IVR 系统、辅助工具、在线学习平台和智能音箱。
API 详情
类别
常见问题
Google Cloud TTS 提供免费额度:标准语音每月 400 万字符,WaveNet/Neural2/Studio 语音每月 100 万字符。超出后:标准语音每百万字符收费 4 美元;WaveNet 每百万字符 16 美元;Neural2 每百万字符 16 美元;Studio(最高质量)每百万字符 160 美元。
WaveNet 语音是由人工智能生成的语音,比标准 TTS 更加自然。Neural2 语音是 Google 最新一代产品,基于 WaveNet 技术训练,语调和自然度进一步提升。Studio 语音是高级版本——由专业配音演员录制,并通过 AI 增强,几乎与真人语音难以区分。
Google Cloud TTS 支持 40 多种语言及其变体,总计超过 380 种语音。这包括主要的世界语言以及地区变体(如多种英语口音、巴西葡萄牙语与欧洲葡萄牙语)。WaveNet 语音的质量因语言而异——在英语、西班牙语、法语、德语、日语和韩语中表现最佳。
Google Cloud TTS 可输出 MP3、LINEAR16(WAV)、OGG Opus、MULAW 和 ALAW 音频。你还可以自定义语速(0.25x–4x)、音调(-20 到 +20 个半音)和音量增益。用于电话应用时,建议使用 8kHz 的 MULAW;大多数应用场景下,24kHz 的 MP3 提供最佳的体积与音质平衡。
