Асинхронный синтез речи MiniMax Speech 2.8 Turbo

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'

{
  "file_id": 123,
  "task_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "task_token": "<string>",
  "usage_characters": 123
}

POST

async

minimax-speech-2.8-turbo

Асинхронный синтез речи MiniMax Speech 2.8 Turbo

curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'

{
  "file_id": 123,
  "task_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "task_token": "<string>",
  "usage_characters": 123
}

Используйте этот интерфейс, чтобы создать асинхронную задачу синтеза речи. Поддерживается ввод текста или файла: максимальная длина текста — 50 000 символов, максимальная длина файла — 100 000 символов.

Это асинхронный API, который возвращает только task_id асинхронной задачи. Используйте этот task_id для запроса API получения результата задачи, чтобы получить результат генерации.

Заголовки запроса

Content-Type

string

обязательно

Перечисляемое значение: application/json

Authorization

string

обязательно

Формат аутентификации Bearer: Bearer {{API 密钥}}.

Тело запроса

text

string

Текст для синтеза аудио, максимальная длина — 50 000 символов. Обязательно указать либо text, либо text_file_id

• Теги междометий и звуков: только при выборе модели speech-2.8-hd или speech-2.8-turbo поддерживается вставка тегов междометий и звуков в текст. Поддерживаемые звуки: (laughs) (смех), (chuckle) (легкий смешок), (coughs) (кашель), (clear-throat) (прочищение горла), (groans) (стон), (breath) (обычный вдох/выдох), (pant) (тяжелое дыхание), (inhale) (вдох), (exhale) (выдох), (gasps) (резкий вдох), (sniffs) (шмыгание носом), (sighs) (вздох), (snorts) (фырканье), (burps) (отрыжка), (lip-smacking) (чмоканье губами), (humming) (напевание), (hissing) (шипение), (emm) (эм), (whistles) (свист), (sneezes) (чихание), (crying) (всхлипывание), (applause) (аплодисменты)

text_file_id

integer

id текстового файла для синтеза аудио. Длина одного файла должна быть меньше 100 000 символов. Поддерживаемые форматы файлов: txt, zip. Обязательно указать либо text_file_id, либо text; после передачи формат проверяется автоматически.
• Файл txt: ограничение длины <100,000 символов. Поддерживается использование <#x#> для обозначения пользовательской паузы. x — длительность паузы (единица: секунды), диапазон [0.01,99.99], не более двух знаков после запятой. Обратите внимание: паузу нужно размещать между двумя фрагментами текста, которые могут быть озвучены; нельзя использовать несколько тегов паузы подряд
• Файл zip:
• В архиве должны содержаться файлы txt или json одного формата.
• Формат файла json: поддерживаются три поля [title, content, extra], которые соответственно обозначают заголовок, основной текст и дополнительную информацию. Если присутствуют все три поля, будет создано 3 группы результатов, всего 9 файлов, которые будут сохранены в одной папке. Если какое-либо поле отсутствует или его содержимое пустое, соответствующий результат для этого поля не будет сгенерирован

voice_modify

object

Скрыть properties

pitch

integer

Настройка высоты тона (низкий/яркий), диапазон [-100, 100]: чем ближе значение к -100, тем ниже голос; чем ближе к 100, тем ярче голосДиапазон значений: [-100, 100]

timbre

integer

Настройка тембра (бархатистый/звонкий), диапазон [-100, 100]: чем ближе значение к -100, тем более насыщенный голос; чем ближе к 100, тем более звонкий голосДиапазон значений: [-100, 100]

intensity

integer

Настройка интенсивности (сила/мягкость), диапазон [-100, 100]: чем ближе значение к -100, тем более энергичный голос; чем ближе к 100, тем более мягкий голосДиапазон значений: [-100, 100]

sound_effects

string

Настройка звукового эффекта. За один раз можно выбрать только один вариант. Доступные значения:

spacious_echo (просторное эхо)
auditorium_echo (трансляция в актовом зале)
lofi_telephone (телефонное искажение)
robotic (электронный голос)

Доступные значения: spacious_echo, auditorium_echo, lofi_telephone, robotic

audio_setting

object

Скрыть properties

format

string

по умолчанию:"mp3"

Формат генерируемого аудио. Доступный диапазон [mp3, pcm, flac], значение по умолчанию — mp3Доступные значения: mp3, pcm, flac

bitrate

integer

по умолчанию:128000

Битрейт генерируемого аудио. Доступный диапазон [32000, 64000, 128000, 256000], значение по умолчанию — 128000. Этот параметр применяется только к аудио в формате mp3

channel

integer

по умолчанию:2

Количество каналов генерируемого аудио. Доступный диапазон: [1, 2], где 1 — моно, 2 — стерео; значение по умолчанию — 1

audio_sample_rate

integer

по умолчанию:32000

Частота дискретизации генерируемого аудио. Доступный диапазон [8000, 16000, 22050, 24000, 32000, 44100], значение по умолчанию — 32000

voice_setting

object

обязательно

Скрыть properties

vol

number

по умолчанию:1

Громкость синтезируемого аудио: чем больше значение, тем выше громкость. Диапазон значений (0, 10], значение по умолчанию — 1.0Диапазон значений: [0, 10]

pitch

integer

по умолчанию:0

Интонация синтезируемого аудио. Диапазон значений [-12, 12], значение по умолчанию — 0, где 0 означает вывод исходного тембраДиапазон значений: [-12, 12]

speed

number

по умолчанию:1

Скорость речи синтезируемого аудио: чем больше значение, тем выше скорость речи. Диапазон значений [0.5, 2], значение по умолчанию — 1.0Диапазон значений: [0.5, 2]

emotion

string

Управляет эмоцией синтезируемой речи. Диапазон параметра: [“happy”, “sad”, “angry”, “fearful”, “disgusted”, “surprised”, “calm”, “fluent”, “whisper”], что соответствует 8 эмоциям: радость, грусть, злость, страх, отвращение, удивление, нейтральность, выразительность, шепот
• Модель автоматически подбирает подходящую эмоцию в зависимости от входного текста; обычно указывать вручную не требуется

• Этот параметр действует только для моделей speech-2.6-hd, speech-2.6-turbo, speech-02-hd, speech-02-turbo, speech-01-hd, speech-01-turbo
• Опции fluent, whisper действуют только для моделей speech-2.6-turbo, speech-2.6-hdДоступные значения: happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper

voice_id

string

обязательно

Идентификатор тембра для синтезируемого аудио. Если нужно настроить смешанный тембр, задайте параметр timber_weights, а этот параметр оставьте пустым. Поддерживаются три типа тембров: системные тембры, клонированные тембры и тембры, сгенерированные из текста. Ниже приведена часть новейших системных тембров (ID); можно посмотреть все официально поддерживаемые тембры
• Китайский:
• moss_audio_ce44fc67-7ce3-11f0-8de5-96e35d26fb85
• moss_audio_aaa1346a-7ce7-11f0-8e61-2e6e3c7ee85d
• Chinese (Mandarin)_Lyrical_Voice
• Chinese (Mandarin)_HK_Flight_Attendant
• Английский:
• English_Graceful_Lady
• English_Insightful_Speaker
• English_radiant_girl
• English_Persuasive_Man
• moss_audio_6dc281eb-713c-11f0-a447-9613c873494c
• moss_audio_570551b1-735c-11f0-b236-0adeeecad052
• moss_audio_ad5baf92-735f-11f0-8263-fe5a2fe98ec8
• English_Lucky_Robot
• Японский:
• Japanese_Whisper_Belle
• moss_audio_24875c4a-7be4-11f0-9359-4e72c55db738
• moss_audio_7f4ee608-78ea-11f0-bb73-1e2a4cfcd245
• moss_audio_c1a6a3ac-7be6-11f0-8e8e-36b92fbb4f95

english_normalization

boolean

по умолчанию:false

Поддерживает нормализацию английского текста. После включения может повысить качество в сценариях чтения чисел, но немного увеличивает задержку. По умолчанию false

aigc_watermark

boolean

по умолчанию:false

Управляет добавлением аудиоритмической метки в конец синтезированного аудио. Значение по умолчанию — False. Этот параметр действует только для нестримингового синтеза

language_boost

string

Усиливать ли способность распознавания указанных малых языков и диалектов. Значение по умолчанию — null; можно установить auto, чтобы модель определяла самостоятельно.Доступные значения: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto

continuous_sound

boolean

по умолчанию:false

Включите этот параметр, чтобы сделать соединение между придаточными фрагментами более естественным. Поддерживается только моделями speech-2.8-hd и speech-2.8-turbo

pronunciation_dict

object

Скрыть properties

tone

array

Определяет правила специальной разметки фонетики или замены произношения для текста или символов. В китайском тексте тона обозначаются цифрами: первый тон — 1, второй тон — 2, третий тон — 3, четвертый тон — 4, нейтральный тон — 5 Пример: [“燕少飞/(yan4)(shao3)(fei1)”, “omg/oh my god”]

Информация ответа

file_id

integer

ID соответствующего аудиофайла, возвращаемый после успешного создания задачи.

• После завершения задачи можно выполнить запрос по file_id. Если при запросе произошла ошибка, это поле не возвращаетсяПримечание: возвращаемый URL для скачивания действителен в течение 9 часов (32400 секунд) с момента генерации. После истечения срока файл станет недействительным, а сгенерированная информация будет потеряна; обратите внимание на время скачивания информации

task_id

string

Используйте task_id для запроса API получения результата задачи, чтобы получить сгенерированный вывод.

base_resp

object

Скрыть properties

status_msg

string

обязательно

Детали статуса

status_code

integer

обязательно

Код статуса

• 0: норма
• 1002: ограничение частоты
• 1004: ошибка аутентификации
• 1039: сработало ограничение TPM
• 1042: более 10% недопустимых символов
• 2013: ошибка параметра

task_token

string

Информация о ключе, использованном для выполнения текущей задачи

usage_characters

integer

Количество тарифицируемых символов

Асинхронный синтез речи MiniMax Speech-2.6-turbo

MiniMax Speech 2.8 Turbo: синхронный синтез речи

​Заголовки запроса

​Тело запроса

​Информация ответа

Заголовки запроса

Тело запроса

Информация ответа