Gemini 2.5 Flash TTS: преобразование текста в речь
Аудио
Gemini 2.5 Flash TTS: преобразование текста в речь
POST
Gemini 2.5 Flash TTS: преобразование текста в речь
Gemini 2.5 Flash TTS на основе интерфейса Google Vertex AI generateContent. Поддерживает синхронный и потоковый синтез речи для одного или нескольких говорящих, позволяя точно управлять стилем, акцентом, ритмом, интонацией и эмоциональной выразительностью с помощью подсказок на естественном языке. Поле contents поддерживает максимум 8000 байт, максимальная длительность выходного аудио — около 655 секунд. Vertex AI выводит аудио в формате LINEAR16 PCM (24kHz, моно) без WAV-заголовка. Для других аудиоформатов клиент должен выполнить преобразование самостоятельно.
Заголовки запроса
Перечисляемое значение:
application/jsonФормат Bearer-аутентификации: Bearer {{API 密钥}}.
Тело запроса
Информация об ответе
Аудиоконтент в кодировке Base64. Формат — LINEAR16 PCM (24kHz, моно, 16-bit signed little-endian), без WAV-заголовка. Клиент может выполнить преобразование с помощью ffmpeg: ffmpeg -f s16le -ar 24k -ac 1 -i input.raw output.wav