API Whisper da OpenAI
Transcrição de fala para texto de código aberto em 99 idiomas
A API Whisper da OpenAI oferece reconhecimento automático de fala (ASR) de última geração para 99 idiomas por US$0,006 por minuto. Baseada no modelo open-source Whisper large-v2, ela lida de forma robusta com sotaques, ruídos de fundo e vocabulário técnico. Suporta transcrição e tradução para o inglês. Disponível tanto como uma API hospedada quanto como um modelo open-source auto-hospedável. Amplamente utilizada para serviços de transcrição, assistentes de voz, resumos de reuniões e aplicações de acessibilidade.
Detalhes da API
Categorias
Perguntas frequentes
Você pode enviar arquivos de áudio e vídeo padrão, como MP3s ou MP4s, para gerar instantaneamente textos altamente precisos. Ele foi desenvolvido para reconhecer diferentes falantes, eliminar ruídos de fundo e lidar com jargões técnicos complexos, tornando-se extremamente útil para transcrever entrevistas de podcasts ou painéis de especialistas para o seu site de IA e economia.
O preço é extremamente acessível, funcionando em um modelo de pagamento conforme o uso, que atualmente cobra menos de um centavo por minuto de áudio processado. Isso o torna uma maneira altamente econômica de transcrever grandes quantidades de entrevistas de pesquisa ou análises de mercado sem precisar configurar e gerenciar seus próprios servidores caros.
Sim, o modelo foi treinado com uma enorme quantidade de dados multilíngues e suporta quase cem idiomas diferentes. Você pode até usá-lo para traduzir automaticamente áudios estrangeiros diretamente para texto em inglês, o que economiza muito tempo quando você está buscando relatórios internacionais de perspectivas globais para, posteriormente, localizar para seus públicos alemão, espanhol, francês, português brasileiro e chinês.
A principal restrição a ser considerada é que a API só aceita arquivos de até vinte e cinco megabytes por solicitação. Se você estiver tentando transcrever um longo debate de cripto de duas horas, seu código PHP precisará apenas dividir esse grande arquivo de áudio em partes menores antes de enviá-lo para o serviço.
