Gemini 2.5 Flash TTS Synthèse vocale
Audio
Gemini 2.5 Flash TTS Synthèse vocale
POST
Gemini 2.5 Flash TTS Synthèse vocale
Convertit du texte en parole via l’interface generateContent de Vertex AI. Le format du corps de requête est entièrement cohérent avec l’API officielle Vertex AI. Prend en charge deux modes : synchrone (une requête, une réponse) et streaming (une requête, réponse en flux). La sortie est au format LINEAR16 PCM (24 kHz, mono, 16-bit signed little-endian), sans en-tête WAV.
En-têtes de requête
Valeur d’énumération :
application/jsonFormat d’authentification Bearer : Bearer {{API Key}}.
Corps de requête
Informations de réponse
Contenu audio encodé en Base64. Format : LINEAR16 PCM (24 kHz, mono, 16-bit signed little-endian), sans en-tête WAV. Le client peut utiliser ffmpeg pour la conversion : ffmpeg -f s16le -ar 24k -ac 1 -i input.raw output.wav