Gemini 2.5 Flash TTS: преобразование текста в речь

curl --request POST \
  --url https://api.highwayapi.ai/v3/gemini-2.5-flash-tts \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "contents": {
    "role": "<string>",
    "parts": {
      "text": "<string>"
    }
  },
  "generation_config": {
    "temperature": 123,
    "speech_config": {
      "voice_config": {
        "prebuilt_voice_config": {
          "voice_name": "<string>"
        }
      },
      "language_code": "<string>",
      "multi_speaker_voice_config": {
        "speaker_voice_configs": [
          {
            "speaker": "<string>",
            "voice_config": {
              "prebuilt_voice_config": {
                "voice_name": "<string>"
              }
            }
          }
        ]
      }
    }
  }
}
'

{
  "audioContent": "<string>",
  "usageMetadata": {
    "totalTokenCount": 123,
    "promptTokenCount": 123,
    "candidatesTokenCount": 123
  }
}

POST

gemini-2.5-flash-tts

curl --request POST \
  --url https://api.highwayapi.ai/v3/gemini-2.5-flash-tts \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "contents": {
    "role": "<string>",
    "parts": {
      "text": "<string>"
    }
  },
  "generation_config": {
    "temperature": 123,
    "speech_config": {
      "voice_config": {
        "prebuilt_voice_config": {
          "voice_name": "<string>"
        }
      },
      "language_code": "<string>",
      "multi_speaker_voice_config": {
        "speaker_voice_configs": [
          {
            "speaker": "<string>",
            "voice_config": {
              "prebuilt_voice_config": {
                "voice_name": "<string>"
              }
            }
          }
        ]
      }
    }
  }
}
'

{
  "audioContent": "<string>",
  "usageMetadata": {
    "totalTokenCount": 123,
    "promptTokenCount": 123,
    "candidatesTokenCount": 123
  }
}

Gemini 2.5 Flash TTS на основе интерфейса Google Vertex AI generateContent. Поддерживает синхронный и потоковый синтез речи для одного или нескольких говорящих, позволяя точно управлять стилем, акцентом, ритмом, интонацией и эмоциональной выразительностью с помощью подсказок на естественном языке. Поле contents поддерживает максимум 8000 байт, максимальная длительность выходного аудио — около 655 секунд. Vertex AI выводит аудио в формате LINEAR16 PCM (24kHz, моно) без WAV-заголовка. Для других аудиоформатов клиент должен выполнить преобразование самостоятельно.

Заголовки запроса

Content-Type

string

обязательно

Перечисляемое значение: application/json

Authorization

string

обязательно

Формат Bearer-аутентификации: Bearer {{API 密钥}}.

Тело запроса

contents

object

обязательно

Скрыть properties

role

string

по умолчанию:"user"

обязательно

Роль, фиксированное значение — userДопустимое значение: user

parts

object

обязательно

Скрыть properties

text

string

обязательно

Текстовое содержимое, которое нужно синтезировать в речь. Vertex AI API объединяет подсказку и текст в одном поле в формате ’: ’, например ‘Say the following in a curious way: OK, so… tell me about this AI thing.’. Общий размер — до 8000 байт; аудио длительностью более 655 секунд будет обрезано. Поддерживаются встроенные теги разметки: [sigh], [laughing], [uhm], [sarcasm], [robotic], [shouting], [whispering], [extremely fast], [short pause], [medium pause], [long pause]Ограничение длины: 0 - 8000

generation_config

object

обязательно

Скрыть properties

temperature

number

по умолчанию:2

Параметр температуры, управляющий случайностью и креативностью генерации речи. Чем выше значение, тем более креативным и разнообразным будет результат; чем ниже значение, тем более предсказуемым и сфокусированным он будет. Допустимый диапазон: (0.0, 2.0], рекомендуемое значение — 2.0Диапазон значений: [0, 2]

speech_config

object

обязательно

Скрыть properties

voice_config

object

Конфигурация голоса для одного говорящего. Используется один из двух вариантов: voice_config или multi_speaker_voice_config

Скрыть properties

prebuilt_voice_config

object

Скрыть properties

voice_name

string

Название предустановленного голоса (без учета регистра). Доступно 30 голосов (как мужские, так и женские)Возможные значения: Achernar, Achird, Algenib, Algieba, Alnilam, Aoede, Autonoe, Callirrhoe, Charon, Despina, Enceladus, Erinome, Fenrir, Gacrux, Iapetus, Kore, Laomedeia, Leda, Orus, Pulcherrima, Puck, Rasalgethi, Sadachbia, Sadaltager, Schedar, Sulafat, Umbriel, Vindemiatrix, Zephyr, Zubenelgenubi

language_code

string

Код языка (формат BCP-47, без учета регистра). Необязательное поле; если не передано, язык будет автоматически определен по входному тексту. Языки GA: ar-EG, bn-BD, nl-NL, en-IN, en-US, fr-FR, de-DE, hi-IN, id-ID, it-IT, ja-JP, ko-KR, mr-IN, pl-PL, pt-BR, ro-RO, ru-RU, es-ES, ta-IN, te-IN, th-TH, tr-TR, uk-UA, vi-VN. Языки Preview включают cmn-CN (китайский путунхуа) и еще 63 языкаВозможные значения: af-ZA, am-ET, ar-001, ar-EG, az-AZ, be-BY, bg-BG, bn-BD, ca-ES, ceb-PH, cmn-CN, cmn-TW, cs-CZ, da-DK, de-DE, el-GR, en-AU, en-GB, en-IN, en-US, es-419, es-ES, es-MX, et-EE, eu-ES, fa-IR, fi-FI, fil-PH, fr-CA, fr-FR, gl-ES, gu-IN, he-IL, hi-IN, hr-HR, ht-HT, hu-HU, hy-AM, id-ID, is-IS, it-IT, ja-JP, jv-JV, ka-GE, kn-IN, ko-KR, kok-IN, la-VA, lb-LU, lo-LA, lt-LT, lv-LV, mai-IN, mg-MG, mk-MK, ml-IN, mn-MN, mr-IN, ms-MY, my-MM, nb-NO, ne-NP, nl-NL, nn-NO, or-IN, pa-IN, pl-PL, ps-AF, pt-BR, pt-PT, ro-RO, ru-RU, sd-IN, si-LK, sk-SK, sl-SI, sq-AL, sr-RS, sv-SE, sw-KE, ta-IN, te-IN, th-TH, tr-TR, uk-UA, ur-PK, vi-VN

multi_speaker_voice_config

object

Конфигурация голосов для нескольких говорящих. Используется один из двух вариантов: voice_config или multi_speaker_voice_config. Примечание: gemini-2.5-flash-lite-preview-tts не поддерживает синтез с несколькими говорящими

Скрыть properties

speaker_voice_configs

array

Список конфигураций голосов говорящих

Скрыть properties

speaker

string

обязательно

Псевдоним говорящего; должен состоять только из буквенно-цифровых символов и не содержать пробелов. Должен совпадать с идентификатором говорящего в contents.parts.text

voice_config

object

обязательно

Скрыть properties

prebuilt_voice_config

object

Скрыть properties

voice_name

string

Информация об ответе

audioContent

string

Аудиоконтент в кодировке Base64. Формат — LINEAR16 PCM (24kHz, моно, 16-bit signed little-endian), без WAV-заголовка. Клиент может выполнить преобразование с помощью ffmpeg: ffmpeg -f s16le -ar 24k -ac 1 -i input.raw output.wav

usageMetadata

object

Скрыть properties

totalTokenCount

integer

Общее количество token (promptTokenCount + candidatesTokenCount)

promptTokenCount

integer

Количество token, израсходованных входным текстом

candidatesTokenCount

integer

Количество token, израсходованных выходным аудио (примерно 25 token на секунду аудио)

Клонирование аудио Fish Audio

MiniMax Music

​Заголовки запроса

​Тело запроса

​Информация об ответе

Заголовки запроса

Тело запроса

Информация об ответе