Перейти к основному содержанию
POST
/
v3
/
async
/
minimax-speech-2.8-hd
Асинхронный синтез речи MiniMax Speech 2.8 HD
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
{
  "file_id": 123,
  "task_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "task_token": "<string>",
  "usage_characters": 123
}
Используйте этот интерфейс для создания асинхронной задачи синтеза речи. Поддерживается ввод текста или файла: ограничение длины текста — до 50 000 символов, ограничение для файла — до 100 000 символов.
Это асинхронный API, который возвращает только task_id асинхронной задачи. Используйте этот task_id для запроса API получения результата задачи, чтобы получить результат генерации.

Заголовки запроса

Content-Type
string
обязательно
Перечисляемое значение: application/json
Authorization
string
обязательно
Формат Bearer-аутентификации: Bearer {{API 密钥}}.

Тело запроса

text
string
Текст для синтеза аудио, ограничение длины — до 50 000 символов. Обязательно указать одно из двух: text или text_file_id

• Теги междометий: только при выборе модели speech-2.8-hd или speech-2.8-turbo поддерживается вставка тегов междометий в текст. Поддерживаемые междометия: (laughs) (смех), (chuckle) (тихий смех), (coughs) (кашель), (clear-throat) (прочистить горло), (groans) (стон), (breath) (обычный вдох/выдох), (pant) (задыхание), (inhale) (вдох), (exhale) (выдох), (gasps) (резкий вдох), (sniffs) (шмыганье носом), (sighs) (вздох), (snorts) (фырканье), (burps) (отрыжка), (lip-smacking) (чмоканье губами), (humming) (напевание), (hissing) (шипение), (emm) (эм), (whistles) (свист), (sneezes) (чихание), (crying) (всхлипывание), (applause) (аплодисменты)
text_file_id
integer
id текстового файла для синтеза аудио. Длина одного файла должна быть меньше 100 000 символов. Поддерживаемые форматы файлов: txt, zip. Обязательно указать одно из двух: text или text_file_id; после передачи формат проверяется автоматически.
Файл txt: ограничение длины <100000 символов. Поддерживается использование &lt;#x#&gt; для обозначения пользовательской паузы. x — длительность паузы (единица: секунды), диапазон [0.01, 99.99], максимум две цифры после запятой. Обратите внимание: пауза должна быть установлена между двумя фрагментами текста, которые можно произнести, и нельзя использовать несколько тегов паузы подряд
Файл zip:
• Архив должен содержать файлы txt или json одного формата.
• Формат файла json: поддерживаются три поля [title, content, extra], которые соответственно обозначают заголовок, основной текст и дополнительную информацию. Если присутствуют все три поля, будет создано 3 набора результатов, всего 9 файлов, которые будут сохранены в одной папке. Если какое-либо поле отсутствует или его содержимое пустое, для этого поля соответствующий результат не будет сгенерирован
voice_modify
object
audio_setting
object
voice_setting
object
обязательно
aigc_watermark
boolean
по умолчанию:false
Управляет добавлением аудиоритмической метки в конец синтезируемого аудио. Значение по умолчанию — False. Этот параметр действует только для непотокового синтеза
language_boost
string
Усиливать ли способность распознавания указанных малых языков и диалектов. Значение по умолчанию — null; можно установить auto, чтобы модель определяла самостоятельно.Доступные значения: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
continuous_sound
boolean
по умолчанию:false
Включите этот параметр, чтобы переходы между частями предложения звучали более естественно. Поддерживается только моделями speech-2.8-hd и speech-2.8-turbo
pronunciation_dict
object

Информация об ответе

file_id
integer
ID соответствующего аудиофайла, возвращаемый после успешного создания задачи.

• После завершения задачи можно выполнить запрос по file_id. Если при запросе произошла ошибка, это поле не возвращается
Примечание: возвращаемый URL для скачивания действителен в течение 9 часов (32400 секунд) с момента генерации. После истечения срока файл станет недоступен, а сгенерированная информация будет потеряна, поэтому следите за временем скачивания
task_id
string
Используйте task_id для запроса API получения результата задачи, чтобы получить сгенерированный вывод.
base_resp
object
task_token
string
Информация о ключе, использованном для выполнения текущей задачи
usage_characters
integer
Количество оплачиваемых символов