Перейти к основному содержанию
POST
/
v3
/
fish-audio-s2-pro-text-to-speech
Fish Audio S2 Pro — преобразование текста в речь
curl --request POST \
  --url https://api.highwayapi.ai/v3/fish-audio-s2-pro-text-to-speech \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "top_p": 123,
  "format": "<string>",
  "latency": "<string>",
  "prosody": {
    "speed": 123,
    "volume": 123,
    "normalize_loudness": true
  },
  "normalize": true,
  "references": [
    {
      "text": "<string>",
      "audio": "<string>"
    }
  ],
  "mp3_bitrate": 123,
  "sample_rate": 123,
  "temperature": 123,
  "chunk_length": 123,
  "opus_bitrate": 123,
  "reference_id": "<string>",
  "max_new_tokens": 123,
  "min_chunk_length": 123,
  "repetition_penalty": 123,
  "early_stop_threshold": 123,
  "condition_on_previous_chunks": true
}
'
Модель преобразования текста в речь Fish Audio S2 Pro преобразует текст в естественную речь и поддерживает референсные тембры, управление сэмплированием, сегментацию, аудиоформаты и управление просодией.

Заголовки запроса

Content-Type
string
обязательно
Перечисляемое значение: application/json
Authorization
string
обязательно
Формат аутентификации Bearer: Bearer {{API 密钥}}.

Тело запроса

text
string
обязательно
Текст, который нужно преобразовать в речь. Для многоактерного текста S2-Pro можно использовать теги <|speaker:0|>Привет<|speaker:1|>Привет.
top_p
number
Управление разнообразием nucleus sampling.Диапазон значений: [0, 1]
format
string
по умолчанию:"mp3"
Формат выходного аудио.Возможные значения: wav, pcm, mp3, opus
latency
string
по умолчанию:"normal"
Уровень задержки.Возможные значения: low, normal, balanced
prosody
object
Управление просодией.
normalize
boolean
по умолчанию:true
Нормализует текст на китайском и английском языках.
references
array
Референсные аудиосэмплы для zero-shot клонирования голоса.
mp3_bitrate
integer
по умолчанию:128
Битрейт MP3, в kbps.Возможные значения: 64, 128, 192
sample_rate
integer
Частота дискретизации выходного аудио в Hz. Если значение пустое, используется значение по умолчанию для формата: для opus — 48000 Hz, для остальных обычно 44100 Hz.
temperature
number
Управление выразительностью.Диапазон значений: [0, 1]
chunk_length
integer
по умолчанию:300
Размер сегмента текста.Диапазон значений: [100, 300]
opus_bitrate
integer
Битрейт Opus, в bps; -1000 означает автоматический выбор.Возможные значения: -1000, 24000, 32000, 48000, 64000
reference_id
string
ID модели тембра; для сценариев с несколькими говорящими можно передать массив, соответствующий индексам speaker.
max_new_tokens
integer
по умолчанию:1024
Максимальное количество аудио-токенов для каждого сегмента.
min_chunk_length
integer
по умолчанию:50
Минимальное количество символов перед сегментацией.Диапазон значений: [0, 100]
repetition_penalty
number
Штрафной коэффициент для уменьшения повторов аудиопаттернов.
early_stop_threshold
number
по умолчанию:1
Порог досрочной остановки.Диапазон значений: [0, 1]
condition_on_previous_chunks
boolean
по умолчанию:true
Использовать предыдущие аудиосегменты как контекст.

Информация об ответе

Сгенерированное аудио. Формат: binary