Question 1

Combien coûte Google Cloud Text-to-Speech ?

Accepted Answer

Google Cloud TTS propose un forfait gratuit de 4 millions de caractères par mois pour les voix standard et 1 million de caractères pour les voix WaveNet/Neural2/Studio. Au-delà : les voix standard coûtent 4 $ par million de caractères ; WaveNet 16 $ par million ; Neural2 16 $ par million ; Studio (qualité la plus élevée) 160 $ par million de caractères.

Question 2

Qu'est-ce que les voix WaveNet et en quoi sont-elles différentes ?

Accepted Answer

Les voix WaveNet sont des voix générées par l'IA qui sonnent beaucoup plus naturelles que les voix TTS standard. Les voix Neural2 sont la dernière génération de Google, entraînées sur la technologie WaveNet avec une prosodie et un naturel améliorés. Les voix Studio sont la gamme premium — enregistrées par des comédiens professionnels et améliorées par l'IA, elles sont presque indiscernables de la parole humaine.

Question 3

Combien de langues Google Cloud TTS prend-il en charge ?

Accepted Answer

Google Cloud TTS prend en charge plus de 40 langues et variantes, avec plus de 380 voix au total. Cela inclut les principales langues du monde ainsi que des variantes régionales (par exemple, plusieurs accents anglais, portugais brésilien vs européen). La qualité WaveNet varie selon la langue — elle est la meilleure pour l'anglais, l'espagnol, le français, l'allemand, le japonais et le coréen.

Question 4

Quels formats audio Google Cloud TTS peut-il générer ?

Accepted Answer

Google Cloud TTS peut générer des fichiers audio MP3, LINEAR16 (WAV), OGG Opus, MULAW et ALAW. Vous pouvez également personnaliser la vitesse de parole (0,25x–4x), la hauteur (–20 à +20 demi-tons) et le gain de volume. Pour les applications de téléphonie, utilisez MULAW à 8 kHz ; pour la plupart des applications, le MP3 à 24 kHz offre le meilleur rapport taille/qualité.

API Google Cloud Text-to-Speech

Détails de l'API

Catégories

Foire aux questions