Fish Audio S2 Pro — преобразование текста в речь
Аудио
Fish Audio S2 Pro — преобразование текста в речь
POST
Fish Audio S2 Pro — преобразование текста в речь
Модель преобразования текста в речь Fish Audio S2 Pro преобразует текст в естественную речь и поддерживает референсные тембры, управление сэмплированием, сегментацию, аудиоформаты и управление просодией.
Заголовки запроса
Перечисляемое значение:
application/jsonФормат аутентификации Bearer: Bearer {{API 密钥}}.
Тело запроса
Текст, который нужно преобразовать в речь. Для многоактерного текста S2-Pro можно использовать теги <|speaker:0|>Привет<|speaker:1|>Привет.
Управление разнообразием nucleus sampling.Диапазон значений: [0, 1]
Формат выходного аудио.Возможные значения:
wav, pcm, mp3, opusУровень задержки.Возможные значения:
low, normal, balancedУправление просодией.
Нормализует текст на китайском и английском языках.
Референсные аудиосэмплы для zero-shot клонирования голоса.
Битрейт MP3, в kbps.Возможные значения:
64, 128, 192Частота дискретизации выходного аудио в Hz. Если значение пустое, используется значение по умолчанию для формата: для opus — 48000 Hz, для остальных обычно 44100 Hz.
Управление выразительностью.Диапазон значений: [0, 1]
Размер сегмента текста.Диапазон значений: [100, 300]
Битрейт Opus, в bps; -1000 означает автоматический выбор.Возможные значения:
-1000, 24000, 32000, 48000, 64000ID модели тембра; для сценариев с несколькими говорящими можно передать массив, соответствующий индексам speaker.
Максимальное количество аудио-токенов для каждого сегмента.
Минимальное количество символов перед сегментацией.Диапазон значений: [0, 100]
Штрафной коэффициент для уменьшения повторов аудиопаттернов.
Порог досрочной остановки.Диапазон значений: [0, 1]
Использовать предыдущие аудиосегменты как контекст.
Информация об ответе
Сгенерированное аудио. Формат:binary