← 返回全部 API

OpenAI Whisper API

Q: 我可以处理什么类型的音频？

您可以上传标准的音频和视频文件，如MP3或MP4，即可即时生成高度准确的文本。该系统能够识别不同的说话人，消除背景噪音，并处理大量技术术语，非常适合为您的AI和经济类网站转录播客访谈或专家小组讨论。

Q: 使用费用是多少？

价格非常实惠，采用按需付费模式，目前每分钟处理的音频费用不到一美分。这使得转录大量研究访谈或市场分析变得极具性价比，无需搭建和维护昂贵的自有服务器。

Q: 它支持不同的语言吗？

是的，该模型经过大量多语言数据训练，支持近一百种不同的语言。您甚至可以用它将外语音频自动翻译成英文文本，这在您收集国际全球展望报告并最终为德语、西班牙语、法语、巴西葡萄牙语和中文受众本地化时，能大大节省时间。

Q: 文件大小有限制吗？

需要注意的主要限制是API每次请求只接受最大25兆字节的文件。如果您要转录一场长达两小时的加密货币辩论，您的PHP代码只需将大音频文件切分成更小的片段再发送给服务即可。

支持99种语言的开源语音转文字转录

已付款 ✓ 已认证 ★ 4.8 🇺🇸 美国

查看文档 → 访问官网

OpenAI 的 Whisper API 为 99 种语言提供了最先进的自动语音识别（ASR），每分钟仅需 $0.006。基于开源的 Whisper large-v2 模型，它能够强大地处理口音、背景噪音和技术词汇。支持转录和翻译为英文。既可作为托管 API 使用，也可作为可自托管的开源模型。广泛应用于转录服务、语音助手、会议摘要和无障碍应用。

API 详情

认证方式

API 密钥

定价模式

已付款

免费额度

包含在5美元注册奖励中

请求限制

50 转/分

数据格式

REST / 多部分 / JSON

版本策略

whisper-1

SLA / 可用率

99.9%

合规认证

SOC 2，GDPR

地理限制

全球

类别

语音与声音

常见问题

我可以处理什么类型的音频？

使用费用是多少？

它支持不同的语言吗？

文件大小有限制吗？