Gemini 2.5 Flash TTS Text-to-Speech
Audio
Gemini 2.5 Flash TTS Text-to-Speech
POST
Gemini 2.5 Flash TTS Text-to-Speech
Convierte texto en voz mediante la interfaz generateContent de Vertex AI. El formato del cuerpo de la solicitud es totalmente coherente con la API oficial de Vertex AI. Admite dos modos: síncrono (una solicitud, una respuesta) y streaming (una solicitud, respuesta en streaming). La salida está en formato LINEAR16 PCM (24kHz, mono, 16-bit signed little-endian) y no incluye encabezado WAV.
Encabezados de solicitud
Valores enumerados:
application/jsonFormato de autenticación Bearer: Bearer {{API Key}}.
Cuerpo de la solicitud
Información de respuesta
Contenido de audio codificado en Base64. El formato es LINEAR16 PCM (24kHz, mono, 16-bit signed little-endian) y no incluye encabezado WAV. El cliente puede convertirlo usando ffmpeg: ffmpeg -f s16le -ar 24k -ac 1 -i input.raw output.wav