MiniMax Speech 2.8 HD синхронный синтез речи

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'

{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}

POST

minimax-speech-2.8-hd

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'

{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}

Преобразует текст в речь, поддерживает различные голоса, управление эмоциями, регулировку скорости речи и другие функции. Ограничение длины текста — менее 10000 символов; если длина текста превышает 3000 символов, рекомендуется использовать потоковый вывод.

Заголовки запроса

Content-Type

string

обязательно

Перечисляемое значение: application/json

Authorization

string

обязательно

Формат Bearer-аутентификации: Bearer {{API 密钥}}.

Тело запроса

text

string

обязательно

Текст, который необходимо синтезировать в речь. Ограничение длины — менее 10000 символов; если длина текста превышает 3000 символов, рекомендуется использовать потоковый вывод. Поддерживается переключение абзацев (символы новой строки), управление паузами (метка <#x#>), теги междометий/паралингвистических звуков (например, (laughs), (coughs) и т. д.; поддерживаются только speech-2.8-hd/turbo)

stream

boolean

по умолчанию:false

Управляет тем, включен ли потоковый вывод. По умолчанию false, то есть потоковый вывод отключен

voice_modify

object

Скрыть properties

pitch

integer

Регулировка высоты тона (низкий/яркий), диапазон [-100, 100]. Чем ближе значение к -100, тем ниже голос; чем ближе к 100, тем голос ярчеДиапазон значений: [-100, 100]

timbre

integer

Регулировка тембра (бархатистый/звонкий), диапазон [-100, 100]. Чем ближе значение к -100, тем голос более насыщенный; чем ближе к 100, тем голос более звонкийДиапазон значений: [-100, 100]

intensity

integer

Регулировка интенсивности (сила/мягкость), диапазон [-100, 100]. Чем ближе значение к -100, тем голос более твердый; чем ближе к 100, тем голос более мягкийДиапазон значений: [-100, 100]

sound_effects

string

Настройка аудиоэффекта; за один раз можно выбрать только один. Доступные значения: spacious_echo (эхо просторного помещения), auditorium_echo (трансляция в зале), lofi_telephone (телефонное искажение), robotic (электронный голос)Доступные значения: spacious_echo, auditorium_echo, lofi_telephone, robotic

audio_setting

object

Скрыть properties

format

string

по умолчанию:"mp3"

Формат создаваемого аудио; wav поддерживается только при непотоковом выводеДоступные значения: mp3, pcm, flac, wav

bitrate

integer

по умолчанию:128000

Битрейт создаваемого аудио. Доступный диапазон: [32000, 64000, 128000, 256000], значение по умолчанию — 128000. Этот параметр действует только для аудио в формате mp3Доступные значения: 32000, 64000, 128000, 256000

channel

integer

по умолчанию:1

Количество каналов создаваемого аудио. Доступный диапазон: [1, 2], где 1 — моно, 2 — стерео; значение по умолчанию — 1Доступные значения: 1, 2

force_cbr

boolean

по умолчанию:false

Управление постоянным битрейтом аудио (cbr), доступные значения: false, true. Если этот параметр установлен в true, аудио будет кодироваться с постоянным битрейтом. Примечание: этот параметр действует только когда аудио настроено на потоковый вывод и формат аудио — mp3

sample_rate

integer

по умолчанию:32000

Частота дискретизации создаваемого аудио. Доступный диапазон: [8000, 16000, 22050, 24000, 32000, 44100], значение по умолчанию — 32000Доступные значения: 8000, 16000, 22050, 24000, 32000, 44100

output_format

string

по умолчанию:"hex"

Параметр, управляющий формой результата вывода. Доступные значения: url, hex; значение по умолчанию — hex. Этот параметр действует только в непотоковом сценарии; в потоковом сценарии поддерживается возврат только в форме hex. Возвращаемый url действителен 24 часаДоступные значения: url, hex

voice_setting

object

Скрыть properties

vol

number

по умолчанию:1

Громкость синтезированного аудио: чем больше значение, тем выше громкость. Диапазон значений: (0, 10], значение по умолчанию — 1.0Диапазон значений: [0, 10]

pitch

integer

по умолчанию:0

Интонация синтезированного аудио, диапазон значений [-12, 12], значение по умолчанию — 0, где 0 означает вывод исходного голосаДиапазон значений: [-12, 12]

speed

number

по умолчанию:1

Скорость синтезированного аудио: чем больше значение, тем быстрее речь. Диапазон значений: [0.5, 2], значение по умолчанию — 1.0Диапазон значений: [0.5, 2]

emotion

string

Управляет эмоцией синтезированной речи. Диапазон параметра соответствует 8 эмоциям: радость (happy), грусть (sad), злость (angry), страх (fearful), отвращение (disgusted), удивление (surprised), нейтральность (calm), живость (fluent), шепот (whisper). Модель автоматически подбирает подходящую эмоцию на основе входного текста; обычно вручную указывать не требуетсяДоступные значения: happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper

voice_id

string

обязательно

Идентификатор голоса для синтезированного аудио. Если требуется настроить смешанный голос, задайте параметр timber_weights, а этот параметр оставьте пустым. Поддерживаются три типа голосов: системные голоса, клонированные голоса и голоса, созданные из текста

latex_read

boolean

по умолчанию:false

Управляет тем, нужно ли зачитывать формулы latex; по умолчанию false. Поддерживается только китайский язык; после включения этого параметра параметр language_boost будет установлен в Chinese

text_normalization

boolean

по умолчанию:false

Включать ли нормализацию текста на китайском и английском языках. После включения может повысить качество чтения чисел, но немного увеличит задержку; значение по умолчанию — false

aigc_watermark

boolean

по умолчанию:false

Управляет добавлением аудиоритмической метки в конец синтезированного аудио; значение по умолчанию — false. Этот параметр действует только для непотокового синтеза

language_boost

string

Нужно ли усилить распознавание указанных малораспространенных языков и диалектов. Значение по умолчанию — null; можно установить auto, чтобы модель определяла самостоятельноДоступные значения: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto

stream_options

object

Скрыть properties

exclude_aggregated_audio

boolean

по умолчанию:false

Настраивает, содержит ли последний chunk склеенные голосовые данные в формате hex. Значение по умолчанию — false, то есть последний chunk содержит полные склеенные голосовые данные в формате hex

timber_weights

array

Настройки смешанного голоса; поддерживается смешивание максимум 4 голосов

Скрыть properties

weight

integer

обязательно

Вес каждого голоса в синтезированном аудио; должен заполняться синхронно с voice_id. Доступный диапазон значений: [1, 100]; поддерживается смешивание максимум 4 голосов. Чем выше доля отдельного голоса, тем выше сходство синтезированного голоса с этим голосомДиапазон значений: [1, 100]

voice_id

string

обязательно

Идентификатор голоса для синтезированного аудио; должен заполняться синхронно с параметром weight. Поддерживаются три типа голосов: системные голоса, клонированные голоса и голоса, созданные из текста

subtitle_enable

boolean

по умолчанию:false

Управляет включением сервиса субтитров; значение по умолчанию — false. Этот параметр действует только в сценариях непотокового вывода и только для моделей speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd

continuous_sound

boolean

по умолчанию:false

Включите этот параметр, чтобы сделать переходы между подпредложениями более естественными; поддерживается только моделями speech-2.8-hd и speech-2.8-turbo

pronunciation_dict

object

Скрыть properties

tone

array

Определяет правила замены транскрипции или произношения для текста или символов, требующих специальной разметки. В китайском тексте тоны обозначаются цифрами: первый тон — 1, второй — 2, третий — 3, четвертый — 4, нейтральный тон — 5. Пример: [“燕少飞/(yan4)(shao3)(fei1)”, “omg/oh my god”]

Информация об ответе

data

object

Возвращаемый объект синтезированных данных; может быть null, требуется проверка на непустое значение

trace_id

string

id текущей сессии, используется для помощи в локализации проблемы при обращении за консультацией/отправке отзыва

base_resp

object

Код состояния и сведения текущего запроса

extra_info

object

Дополнительная информация об аудио

Асинхронный синтез речи MiniMax Speech 2.8 HD

Быстрое клонирование аудио MiniMax

​Заголовки запроса

​Тело запроса

​Информация об ответе

Заголовки запроса

Тело запроса

Информация об ответе