Gemini 2.5 Flash TTS Texto para fala
Áudio
Gemini 2.5 Flash TTS Texto para fala
POST
Gemini 2.5 Flash TTS Texto para fala
Converte texto em fala com base na interface generateContent do Vertex AI. O formato do corpo da solicitação é totalmente consistente com a API oficial do Vertex AI. Oferece suporte a dois modos: síncrono (uma solicitação, uma resposta) e streaming (uma solicitação, resposta em streaming). A saída está no formato LINEAR16 PCM (24kHz, mono, 16-bit signed little-endian), sem cabeçalho WAV.
Cabeçalhos da solicitação
Valores enumerados:
application/jsonFormato de autenticação Bearer: Bearer {{API Key}}.
Corpo da solicitação
Informações da resposta
Conteúdo de áudio codificado em Base64. O formato é LINEAR16 PCM (24kHz, mono, 16-bit signed little-endian), sem cabeçalho WAV. O cliente pode usar ffmpeg para converter: ffmpeg -f s16le -ar 24k -ac 1 -i input.raw output.wav