Fish Audio S2 Pro — преобразование текста в речь

curl --request POST \
  --url https://api.highwayapi.ai/v3/fish-audio-s2-pro-text-to-speech \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "top_p": 123,
  "format": "<string>",
  "latency": "<string>",
  "prosody": {
    "speed": 123,
    "volume": 123,
    "normalize_loudness": true
  },
  "normalize": true,
  "references": [
    {
      "text": "<string>",
      "audio": "<string>"
    }
  ],
  "mp3_bitrate": 123,
  "sample_rate": 123,
  "temperature": 123,
  "chunk_length": 123,
  "opus_bitrate": 123,
  "reference_id": "<string>",
  "max_new_tokens": 123,
  "min_chunk_length": 123,
  "repetition_penalty": 123,
  "early_stop_threshold": 123,
  "condition_on_previous_chunks": true
}
'

POST

fish-audio-s2-pro-text-to-speech

curl --request POST \
  --url https://api.highwayapi.ai/v3/fish-audio-s2-pro-text-to-speech \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "top_p": 123,
  "format": "<string>",
  "latency": "<string>",
  "prosody": {
    "speed": 123,
    "volume": 123,
    "normalize_loudness": true
  },
  "normalize": true,
  "references": [
    {
      "text": "<string>",
      "audio": "<string>"
    }
  ],
  "mp3_bitrate": 123,
  "sample_rate": 123,
  "temperature": 123,
  "chunk_length": 123,
  "opus_bitrate": 123,
  "reference_id": "<string>",
  "max_new_tokens": 123,
  "min_chunk_length": 123,
  "repetition_penalty": 123,
  "early_stop_threshold": 123,
  "condition_on_previous_chunks": true
}
'

Модель преобразования текста в речь Fish Audio S2 Pro преобразует текст в естественную речь и поддерживает референсные тембры, управление сэмплированием, сегментацию, аудиоформаты и управление просодией.

Заголовки запроса

Content-Type

string

обязательно

Перечисляемое значение: application/json

Authorization

string

обязательно

Формат аутентификации Bearer: Bearer {{API 密钥}}.

Тело запроса

text

string

обязательно

Текст, который нужно преобразовать в речь. Для многоактерного текста S2-Pro можно использовать теги <|speaker:0|>Привет<|speaker:1|>Привет.

top_p

number

Управление разнообразием nucleus sampling.Диапазон значений: [0, 1]

format

string

по умолчанию:"mp3"

Формат выходного аудио.Возможные значения: wav, pcm, mp3, opus

latency

string

по умолчанию:"normal"

Уровень задержки.Возможные значения: low, normal, balanced

prosody

object

Управление просодией.

Скрыть свойства

speed

number

по умолчанию:1

Коэффициент скорости речи.

volume

number

по умолчанию:0

Настройка громкости.

normalize_loudness

boolean

по умолчанию:true

Нормализовать ли громкость на выходе.

normalize

boolean

по умолчанию:true

Нормализует текст на китайском и английском языках.

references

array

Референсные аудиосэмплы для zero-shot клонирования голоса.

Скрыть свойства

text

string

Текст, соответствующий референсному аудио.

audio

string

Референсное аудио; передавайте base64 или URL в соответствии с поддержкой поставщика.

mp3_bitrate

integer

по умолчанию:128

Битрейт MP3, в kbps.Возможные значения: 64, 128, 192

sample_rate

integer

Частота дискретизации выходного аудио в Hz. Если значение пустое, используется значение по умолчанию для формата: для opus — 48000 Hz, для остальных обычно 44100 Hz.

temperature

number

Управление выразительностью.Диапазон значений: [0, 1]

chunk_length

integer

по умолчанию:300

Размер сегмента текста.Диапазон значений: [100, 300]

opus_bitrate

integer

Битрейт Opus, в bps; -1000 означает автоматический выбор.Возможные значения: -1000, 24000, 32000, 48000, 64000

reference_id

string

ID модели тембра; для сценариев с несколькими говорящими можно передать массив, соответствующий индексам speaker.

max_new_tokens

integer

по умолчанию:1024

Максимальное количество аудио-токенов для каждого сегмента.

min_chunk_length

integer

по умолчанию:50

Минимальное количество символов перед сегментацией.Диапазон значений: [0, 100]

repetition_penalty

number

Штрафной коэффициент для уменьшения повторов аудиопаттернов.

early_stop_threshold

number

по умолчанию:1

Порог досрочной остановки.Диапазон значений: [0, 1]

condition_on_previous_chunks

boolean

по умолчанию:true

Использовать предыдущие аудиосегменты как контекст.

Информация об ответе

Сгенерированное аудио. Формат: binary

Клонирование аудио GLM

Синтез речи Fish Audio

​Заголовки запроса

​Тело запроса

​Информация об ответе

Заголовки запроса

Тело запроса

Информация об ответе