OpenAI 的 Whisper API 为 99 种语言提供了最先进的自动语音识别(ASR),每分钟仅需 $0.006。基于开源的 Whisper large-v2 模型,它能够强大地处理口音、背景噪音和技术词汇。支持转录和翻译为英文。既可作为托管 API 使用,也可作为可自托管的开源模型。广泛应用于转录服务、语音助手、会议摘要和无障碍应用。
API 详情
认证方式
API 密钥
定价模式
已付款
免费额度
包含在5美元注册奖励中
请求限制
50 转/分
数据格式
REST / 多部分 / JSON
版本策略
whisper-1
SLA / 可用率
99.9%
合规认证
SOC 2,GDPR
地理限制
全球
最近验证
2026-02-20
类别
常见问题
您可以上传标准的音频和视频文件,如MP3或MP4,即可即时生成高度准确的文本。该系统能够识别不同的说话人,消除背景噪音,并处理大量技术术语,非常适合为您的AI和经济类网站转录播客访谈或专家小组讨论。
价格非常实惠,采用按需付费模式,目前每分钟处理的音频费用不到一美分。这使得转录大量研究访谈或市场分析变得极具性价比,无需搭建和维护昂贵的自有服务器。
是的,该模型经过大量多语言数据训练,支持近一百种不同的语言。您甚至可以用它将外语音频自动翻译成英文文本,这在您收集国际全球展望报告并最终为德语、西班牙语、法语、巴西葡萄牙语和中文受众本地化时,能大大节省时间。
需要注意的主要限制是API每次请求只接受最大25兆字节的文件。如果您要转录一场长达两小时的加密货币辩论,您的PHP代码只需将大音频文件切分成更小的片段再发送给服务即可。
