API Google Cloud Text-to-Speech
Plus de 380 voix dans plus de 50 langues avec WaveNet et Neural2
Google Cloud Text-to-Speech propose l’une des plus larges sélections de voix (plus de 380) du secteur, couvrant plus de 50 langues et variantes. Les voix WaveNet et Neural2 produisent une parole très naturelle grâce à l’apprentissage profond. Le généreux forfait gratuit de 4 millions de caractères par mois en fait la solution idéale pour le prototypage et les applications à volume moyen. La prise en charge de SSML offre un contrôle précis de la prononciation, de la vitesse, de la hauteur et des pauses. Utilisé dans les systèmes IVR, les outils d’accessibilité, les plateformes d’apprentissage en ligne et les enceintes intelligentes.
Détails de l'API
Catégories
Foire aux questions
Google Cloud TTS propose un forfait gratuit de 4 millions de caractères par mois pour les voix standard et 1 million de caractères pour les voix WaveNet/Neural2/Studio. Au-delà : les voix standard coûtent 4 $ par million de caractères ; WaveNet 16 $ par million ; Neural2 16 $ par million ; Studio (qualité la plus élevée) 160 $ par million de caractères.
Les voix WaveNet sont des voix générées par l'IA qui sonnent beaucoup plus naturelles que les voix TTS standard. Les voix Neural2 sont la dernière génération de Google, entraînées sur la technologie WaveNet avec une prosodie et un naturel améliorés. Les voix Studio sont la gamme premium — enregistrées par des comédiens professionnels et améliorées par l'IA, elles sont presque indiscernables de la parole humaine.
Google Cloud TTS prend en charge plus de 40 langues et variantes, avec plus de 380 voix au total. Cela inclut les principales langues du monde ainsi que des variantes régionales (par exemple, plusieurs accents anglais, portugais brésilien vs européen). La qualité WaveNet varie selon la langue — elle est la meilleure pour l'anglais, l'espagnol, le français, l'allemand, le japonais et le coréen.
Google Cloud TTS peut générer des fichiers audio MP3, LINEAR16 (WAV), OGG Opus, MULAW et ALAW. Vous pouvez également personnaliser la vitesse de parole (0,25x–4x), la hauteur (–20 à +20 demi-tons) et le gain de volume. Pour les applications de téléphonie, utilisez MULAW à 8 kHz ; pour la plupart des applications, le MP3 à 24 kHz offre le meilleur rapport taille/qualité.
