Перейти к основному содержанию
POST
/
v4beta
/
txt2speech
Синтез речи Fish Audio
curl --request POST \
  --url https://api.highwayapi.ai/v4beta/txt2speech \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "temperature": 123,
  "top_p": 123,
  "references": {
    "text": "<string>"
  },
  "reference_id": {},
  "prosody": {
    "speed": 123,
    "volume": 123
  },
  "chunk_length": 123,
  "normalize": true,
  "format": {},
  "sample_rate": {},
  "mp3_bitrate": {},
  "opus_bitrate": {},
  "latency": {}
}
'
Для достижения наилучших результатов перед использованием этого API рекомендуется сначала загрузить эталонное аудио с помощью клонирования аудио. Это повысит качество речи и снизит задержку.
Fish Audio преобразует текст в речь. Поддерживаемые аудиоформаты:
  • WAV / PCM
    • Частота дискретизации: 8kHz, 16kHz, 24kHz, 32kHz, 44.1kHz
    • Частота дискретизации по умолчанию: 44.1kHz
    • 16-bit, моно
  • MP3
    • Частота дискретизации: 32kHz, 44.1kHz
    • Частота дискретизации по умолчанию: 44.1kHz
    • Моно
    • Битрейт: 64kbps, 128kbps (по умолчанию), 192kbps
  • Opus
    • Частота дискретизации: 48kHz
    • Частота дискретизации по умолчанию: 48kHz
    • Моно
    • Битрейт: -1000 (авто), 24kbps, 32kbps (по умолчанию), 48kbps, 64kbps

Заголовки запроса

Content-Type
string
обязательно
Значение перечисления: application/json
Authorization
string
обязательно
Формат аутентификации Bearer: Bearer {{API 密钥}}.

Тело запроса

text
string
обязательно
Текст, который нужно преобразовать в речь.
temperature
number
Управляет случайностью генерации речи. Более высокие значения (например, 1.0) делают вывод более случайным, более низкие значения (например, 0.1) делают его более детерминированным. Для модели s1 мы рекомендуем использовать 0.9.Обязательный диапазон: 0 <= x <= 1
top_p
number
Управляет разнообразием с помощью nucleus sampling. Более низкие значения (например, 0.1) делают вывод более сфокусированным, более высокие значения (например, 1.0) допускают большее разнообразие. Для модели s1 мы рекомендуем использовать 0.9.Обязательный диапазон: 0 <= x <= 1
references
ReferenceAudio · object[] | null
Эталонное аудио для речи; требуется сериализация MessagePack. Это переопределит reference_voices и reference_texts.
reference_id
string | null
ID эталонной модели для речи.
prosody
ProsodyControl · object
Управление просодией для речи.
chunk_length
integer
по умолчанию:200
Длина фрагмента для речи.Обязательный диапазон: 100 <= x <= 300
normalize
boolean
по умолчанию:true
Нормализовать ли речь. Это снизит задержку, но может ухудшить обработку чисел и дат.
format
enum<string>
по умолчанию:"mp3"
Формат для речи.Допустимые значения: wav, pcm, mp3, opus
sample_rate
integer | null
Частота дискретизации для речи.
mp3_bitrate
enum<integer>
по умолчанию:128
Битрейт MP3 для речи.Допустимые значения: 64, 128, 192
opus_bitrate
enum<integer>
по умолчанию:32
Битрейт Opus для речи.Допустимые значения: -1000, 24, 32, 48, 64
latency
enum<string>
по умолчанию:"normal"
Настройка задержки для речи; balanced снизит задержку, но может привести к снижению производительности.Допустимые значения: normal, balanced

Информация об ответе

API напрямую вернет аудиопоток в формате, указанном параметром format (по умолчанию: mp3).