Перейти к основному содержанию
POST
/
v3
/
gemini-2.5-flash-tts
Gemini 2.5 Flash TTS: преобразование текста в речь
curl --request POST \
  --url https://api.highwayapi.ai/v3/gemini-2.5-flash-tts \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "contents": {
    "role": "<string>",
    "parts": {
      "text": "<string>"
    }
  },
  "generation_config": {
    "temperature": 123,
    "speech_config": {
      "voice_config": {
        "prebuilt_voice_config": {
          "voice_name": "<string>"
        }
      },
      "language_code": "<string>",
      "multi_speaker_voice_config": {
        "speaker_voice_configs": [
          {
            "speaker": "<string>",
            "voice_config": {
              "prebuilt_voice_config": {
                "voice_name": "<string>"
              }
            }
          }
        ]
      }
    }
  }
}
'
{
  "audioContent": "<string>",
  "usageMetadata": {
    "totalTokenCount": 123,
    "promptTokenCount": 123,
    "candidatesTokenCount": 123
  }
}
Gemini 2.5 Flash TTS на основе интерфейса Google Vertex AI generateContent. Поддерживает синхронный и потоковый синтез речи для одного или нескольких говорящих, позволяя точно управлять стилем, акцентом, ритмом, интонацией и эмоциональной выразительностью с помощью подсказок на естественном языке. Поле contents поддерживает максимум 8000 байт, максимальная длительность выходного аудио — около 655 секунд. Vertex AI выводит аудио в формате LINEAR16 PCM (24kHz, моно) без WAV-заголовка. Для других аудиоформатов клиент должен выполнить преобразование самостоятельно.

Заголовки запроса

Content-Type
string
обязательно
Перечисляемое значение: application/json
Authorization
string
обязательно
Формат Bearer-аутентификации: Bearer {{API 密钥}}.

Тело запроса

contents
object
обязательно
generation_config
object
обязательно

Информация об ответе

audioContent
string
Аудиоконтент в кодировке Base64. Формат — LINEAR16 PCM (24kHz, моно, 16-bit signed little-endian), без WAV-заголовка. Клиент может выполнить преобразование с помощью ffmpeg: ffmpeg -f s16le -ar 24k -ac 1 -i input.raw output.wav
usageMetadata
object