Gemini 2.5 Flash TTS Text-to-Speech
Audio
Gemini 2.5 Flash TTS Text-to-Speech
POST
Gemini 2.5 Flash TTS Text-to-Speech
Konvertiert Text über die Vertex AI generateContent-Schnittstelle in Sprache. Das Format des Request-Bodys ist vollständig identisch mit der offiziellen Vertex AI API. Unterstützt sowohl den synchronen Modus (eine Anfrage, eine Antwort) als auch den Streaming-Modus (eine Anfrage, Streaming-Antwort). Die Ausgabe erfolgt im LINEAR16-PCM-Format (24kHz, Mono, 16-bit signed little-endian) und enthält keinen WAV-Header.
Request-Header
Enumerationswert:
application/jsonFormat der Bearer-Authentifizierung: Bearer {{API Key}}.
Request-Body
Antwortinformationen
Base64-codierter Audioinhalt. Format: LINEAR16 PCM (24kHz, Mono, 16-bit signed little-endian), ohne WAV-Header. Clients können ffmpeg zur Konvertierung verwenden: ffmpeg -f s16le -ar 24k -ac 1 -i input.raw output.wav