Перейти к основному содержанию
POST
/
v3
/
async
/
minimax-speech-2.8-turbo
Асинхронный синтез речи MiniMax Speech 2.8 Turbo
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
{
  "file_id": 123,
  "task_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "task_token": "<string>",
  "usage_characters": 123
}
Используйте этот интерфейс, чтобы создать асинхронную задачу синтеза речи. Поддерживается ввод текста или файла: максимальная длина текста — 50 000 символов, максимальная длина файла — 100 000 символов.
Это асинхронный API, который возвращает только task_id асинхронной задачи. Используйте этот task_id для запроса API получения результата задачи, чтобы получить результат генерации.

Заголовки запроса

Content-Type
string
обязательно
Перечисляемое значение: application/json
Authorization
string
обязательно
Формат аутентификации Bearer: Bearer {{API 密钥}}.

Тело запроса

text
string
Текст для синтеза аудио, максимальная длина — 50 000 символов. Обязательно указать либо text, либо text_file_id

• Теги междометий и звуков: только при выборе модели speech-2.8-hd или speech-2.8-turbo поддерживается вставка тегов междометий и звуков в текст. Поддерживаемые звуки: (laughs) (смех), (chuckle) (легкий смешок), (coughs) (кашель), (clear-throat) (прочищение горла), (groans) (стон), (breath) (обычный вдох/выдох), (pant) (тяжелое дыхание), (inhale) (вдох), (exhale) (выдох), (gasps) (резкий вдох), (sniffs) (шмыгание носом), (sighs) (вздох), (snorts) (фырканье), (burps) (отрыжка), (lip-smacking) (чмоканье губами), (humming) (напевание), (hissing) (шипение), (emm) (эм), (whistles) (свист), (sneezes) (чихание), (crying) (всхлипывание), (applause) (аплодисменты)
text_file_id
integer
id текстового файла для синтеза аудио. Длина одного файла должна быть меньше 100 000 символов. Поддерживаемые форматы файлов: txt, zip. Обязательно указать либо text_file_id, либо text; после передачи формат проверяется автоматически.
Файл txt: ограничение длины <100,000 символов. Поддерживается использование &lt;#x#&gt; для обозначения пользовательской паузы. x — длительность паузы (единица: секунды), диапазон [0.01,99.99], не более двух знаков после запятой. Обратите внимание: паузу нужно размещать между двумя фрагментами текста, которые могут быть озвучены; нельзя использовать несколько тегов паузы подряд
Файл zip:
• В архиве должны содержаться файлы txt или json одного формата.
• Формат файла json: поддерживаются три поля [title, content, extra], которые соответственно обозначают заголовок, основной текст и дополнительную информацию. Если присутствуют все три поля, будет создано 3 группы результатов, всего 9 файлов, которые будут сохранены в одной папке. Если какое-либо поле отсутствует или его содержимое пустое, соответствующий результат для этого поля не будет сгенерирован
voice_modify
object
audio_setting
object
voice_setting
object
обязательно
aigc_watermark
boolean
по умолчанию:false
Управляет добавлением аудиоритмической метки в конец синтезированного аудио. Значение по умолчанию — False. Этот параметр действует только для нестримингового синтеза
language_boost
string
Усиливать ли способность распознавания указанных малых языков и диалектов. Значение по умолчанию — null; можно установить auto, чтобы модель определяла самостоятельно.Доступные значения: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
continuous_sound
boolean
по умолчанию:false
Включите этот параметр, чтобы сделать соединение между придаточными фрагментами более естественным. Поддерживается только моделями speech-2.8-hd и speech-2.8-turbo
pronunciation_dict
object

Информация ответа

file_id
integer
ID соответствующего аудиофайла, возвращаемый после успешного создания задачи.

• После завершения задачи можно выполнить запрос по file_id. Если при запросе произошла ошибка, это поле не возвращается
Примечание: возвращаемый URL для скачивания действителен в течение 9 часов (32400 секунд) с момента генерации. После истечения срока файл станет недействительным, а сгенерированная информация будет потеряна; обратите внимание на время скачивания информации
task_id
string
Используйте task_id для запроса API получения результата задачи, чтобы получить сгенерированный вывод.
base_resp
object
task_token
string
Информация о ключе, использованном для выполнения текущей задачи
usage_characters
integer
Количество тарифицируемых символов