API синтеза речи

curl --request POST \ --url https://api.highwayapi.ai/v4beta/txt2speech \ --header 'Authorization: <authorization>' \ --header 'Content-Type: <content-type>' \ --data ' { "text": "<string>", "temperature": 123, "top_p": 123, "references": { "text": "<string>" }, "reference_id": {}, "prosody": { "speed": 123, "volume": 123 }, "chunk_length": 123, "normalize": true, "format": {}, "sample_rate": {}, "mp3_bitrate": {}, "opus_bitrate": {}, "latency": {} } '

Для достижения наилучших результатов перед использованием этого API рекомендуется сначала загрузить эталонное аудио с помощью клонирования аудио. Это повысит качество речи и снизит задержку.

Fish Audio преобразует текст в речь. Поддерживаемые аудиоформаты:

WAV / PCM
- Частота дискретизации: 8kHz, 16kHz, 24kHz, 32kHz, 44.1kHz
- Частота дискретизации по умолчанию: 44.1kHz
- 16-bit, моно
MP3
- Частота дискретизации: 32kHz, 44.1kHz
- Частота дискретизации по умолчанию: 44.1kHz
- Моно
- Битрейт: 64kbps, 128kbps (по умолчанию), 192kbps
Opus
- Частота дискретизации: 48kHz
- Частота дискретизации по умолчанию: 48kHz
- Моно
- Битрейт: -1000 (авто), 24kbps, 32kbps (по умолчанию), 48kbps, 64kbps

Заголовки запроса

Content-Type

string

обязательно

Значение перечисления: application/json

Authorization

string

обязательно

Формат аутентификации Bearer: Bearer {{API 密钥}}.

Тело запроса

text

string

обязательно

Текст, который нужно преобразовать в речь.

temperature

number

Управляет случайностью генерации речи. Более высокие значения (например, 1.0) делают вывод более случайным, более низкие значения (например, 0.1) делают его более детерминированным. Для модели s1 мы рекомендуем использовать 0.9.Обязательный диапазон: 0 <= x <= 1

top_p

number

Управляет разнообразием с помощью nucleus sampling. Более низкие значения (например, 0.1) делают вывод более сфокусированным, более высокие значения (например, 1.0) допускают большее разнообразие. Для модели s1 мы рекомендуем использовать 0.9.Обязательный диапазон: 0 <= x <= 1

references

ReferenceAudio · object[] | null

Эталонное аудио для речи; требуется сериализация MessagePack. Это переопределит reference_voices и reference_texts.

Показать properties

audio

file

обязательно

Эталонный аудиофайл.

text

string

обязательно

Эталонный текст, соответствующий аудио.

reference_id

string | null

ID эталонной модели для речи.

prosody

ProsodyControl · object

Управление просодией для речи.

Показать properties

speed

number

по умолчанию:1

Управление скоростью речи.

volume

number

по умолчанию:0

Управление громкостью речи.

chunk_length

integer

по умолчанию:200

Длина фрагмента для речи.Обязательный диапазон: 100 <= x <= 300

normalize

boolean

по умолчанию:true

Нормализовать ли речь. Это снизит задержку, но может ухудшить обработку чисел и дат.

format

enum<string>

по умолчанию:"mp3"

Формат для речи.Допустимые значения: wav, pcm, mp3, opus

sample_rate

integer | null

Частота дискретизации для речи.

mp3_bitrate

enum<integer>

по умолчанию:128

Битрейт MP3 для речи.Допустимые значения: 64, 128, 192

opus_bitrate

enum<integer>

по умолчанию:32

Битрейт Opus для речи.Допустимые значения: -1000, 24, 32, 48, 64

latency

enum<string>

по умолчанию:"normal"

Настройка задержки для речи; balanced снизит задержку, но может привести к снижению производительности.Допустимые значения: normal, balanced

Информация об ответе

API напрямую вернет аудиопоток в формате, указанном параметром format (по умолчанию: mp3).

​Заголовки запроса

​Тело запроса

​Информация об ответе

Заголовки запроса

Тело запроса

Информация об ответе