MiniMax Speech 2.8 Turbo: синхронный синтез речи

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'

{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}

POST

minimax-speech-2.8-turbo

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'

{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}

Преобразует текст в речь и поддерживает различные голоса, управление эмоциями, настройку скорости речи и другие функции. Ограничение длины текста — менее 10000 символов. Если длина текста превышает 3000 символов, рекомендуется использовать потоковый вывод.

Заголовки запроса

Content-Type

string

обязательно

Перечисляемое значение: application/json

Authorization

string

обязательно

Формат Bearer-аутентификации: Bearer {{API 密钥}}.

Тело запроса

text

string

обязательно

Текст, который необходимо синтезировать в речь. Ограничение длины — менее 10000 символов. Если длина текста превышает 3000 символов, рекомендуется использовать потоковый вывод. Поддерживает переключение абзацев (символы новой строки), управление паузами (метки <#x#>), теги междометий/звуковых реакций (например, (laughs), (coughs) и т. д.; поддерживается только speech-2.8-hd/turbo)

stream

boolean

по умолчанию:false

Управляет тем, будет ли вывод потоковым. По умолчанию false, то есть потоковый вывод не включен

voice_modify

object

Скрыть properties

pitch

integer

Настройка высоты звучания (низкий/яркий), диапазон [-100, 100]. Чем ближе значение к -100, тем ниже голос; чем ближе к 100, тем ярче голосДиапазон значений: [-100, 100]

timbre

integer

Настройка тембра (насыщенный/звонкий), диапазон [-100, 100]. Чем ближе значение к -100, тем более густой и насыщенный голос; чем ближе значение к 100, тем более звонкий голосДиапазон значений: [-100, 100]

intensity

integer

Настройка интенсивности (сила/мягкость), диапазон [-100, 100]. Чем ближе значение к -100, тем более твердый и энергичный голос; чем ближе к 100, тем более мягкий голосДиапазон значений: [-100, 100]

sound_effects

string

Настройка звукового эффекта; за один раз можно выбрать только один. Возможные значения: spacious_echo (просторное эхо), auditorium_echo (эхо актового зала/трансляции), lofi_telephone (телефонное искажение), robotic (электронный голос)Возможные значения: spacious_echo, auditorium_echo, lofi_telephone, robotic

audio_setting

object

Скрыть properties

format

string

по умолчанию:"mp3"

Формат генерируемого аудио; wav поддерживается только при непотоковом выводеВозможные значения: mp3, pcm, flac, wav

bitrate

integer

по умолчанию:128000

Битрейт генерируемого аудио. Возможный диапазон: [32000, 64000, 128000, 256000], значение по умолчанию — 128000. Этот параметр действует только для аудио в формате mp3Возможные значения: 32000, 64000, 128000, 256000

channel

integer

по умолчанию:1

Количество каналов генерируемого аудио. Возможный диапазон: [1, 2], где 1 — моно, 2 — стерео; значение по умолчанию — 1Возможные значения: 1, 2

force_cbr

boolean

по умолчанию:false

Управление постоянным битрейтом аудио (cbr); возможные значения: false, true. Если этот параметр установлен в true, аудио будет кодироваться с постоянным битрейтом. Внимание: параметр действует только если аудио настроено на потоковый вывод и формат аудио — mp3

sample_rate

integer

по умолчанию:32000

Частота дискретизации генерируемого аудио. Возможный диапазон: [8000, 16000, 22050, 24000, 32000, 44100], значение по умолчанию — 32000Возможные значения: 8000, 16000, 22050, 24000, 32000, 44100

output_format

string

по умолчанию:"hex"

Параметр, управляющий формой результата вывода. Возможные значения: url, hex; значение по умолчанию — hex. Этот параметр действует только в непотоковом сценарии; в потоковом сценарии поддерживается возврат только в форме hex. Возвращаемый url действителен 24 часаВозможные значения: url, hex

voice_setting

object

Скрыть properties

vol

number

по умолчанию:1

Громкость синтезированного аудио: чем больше значение, тем выше громкость. Диапазон значений: (0, 10], значение по умолчанию — 1.0Диапазон значений: [0, 10]

pitch

integer

по умолчанию:0

Интонационная высота синтезированного аудио. Диапазон значений: [-12, 12], значение по умолчанию — 0, где 0 означает вывод исходного тембраДиапазон значений: [-12, 12]

speed

number

по умолчанию:1

Скорость речи синтезированного аудио: чем больше значение, тем быстрее речь. Диапазон значений: [0.5, 2], значение по умолчанию — 1.0Диапазон значений: [0.5, 2]

emotion

string

Управляет эмоцией синтезированной речи. Диапазон параметра соответствует 8 эмоциям: радость (happy), грусть (sad), злость (angry), страх (fearful), отвращение (disgusted), удивление (surprised), нейтральность (calm), живость (fluent), шепот (whisper). Модель автоматически подбирает подходящую эмоцию на основе входного текста, поэтому обычно указывать ее вручную не требуетсяВозможные значения: happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper

voice_id

string

обязательно

Идентификатор голоса для синтезированного аудио. Если нужно настроить смешанный голос, задайте параметр timber_weights, а этот параметр оставьте пустым. Поддерживаются три типа: системные голоса, клонированные голоса и голоса, сгенерированные из текста

latex_read

boolean

по умолчанию:false

Управляет тем, нужно ли озвучивать формулы latex; по умолчанию false. Поддерживается только китайский язык. После включения этого параметра параметр language_boost будет установлен в Chinese

text_normalization

boolean

по умолчанию:false

Включать ли нормализацию текста для китайского и английского языков. После включения может улучшить качество в сценариях чтения чисел, но немного увеличит задержку. Значение по умолчанию — false

aigc_watermark

boolean

по умолчанию:false

Управляет добавлением ритмического аудиоидентификатора в конец синтезированного аудио. Значение по умолчанию — false. Этот параметр действует только для непотокового синтеза

language_boost

string

Усиливать ли способность распознавания указанных малораспространенных языков и диалектов. Значение по умолчанию — null; можно установить auto, чтобы модель определяла это самостоятельноВозможные значения: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto

stream_options

object

Скрыть properties

exclude_aggregated_audio

boolean

по умолчанию:false

Задает, содержит ли последний chunk объединенные аудиоданные в формате hex. Значение по умолчанию — false, то есть последний chunk содержит полные объединенные аудиоданные в формате hex

timber_weights

array

Настройки смешанного голоса; поддерживается смешивание максимум 4 голосов

Скрыть properties

weight

integer

обязательно

Вес каждого голоса в синтезированном аудио; должен заполняться вместе с voice_id. Диапазон возможных значений: [1, 100]. Поддерживается смешивание максимум 4 голосов. Чем выше доля одного голоса, тем сильнее синтезированный голос похож на негоДиапазон значений: [1, 100]

voice_id

string

обязательно

Идентификатор голоса для синтезированного аудио; должен заполняться вместе с параметром weight. Поддерживаются три типа: системные голоса, клонированные голоса и голоса, сгенерированные из текста

subtitle_enable

boolean

по умолчанию:false

Управляет включением службы субтитров. Значение по умолчанию — false. Этот параметр действует только в сценарии непотокового вывода и только для моделей speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd

continuous_sound

boolean

по умолчанию:false

Включите этот параметр, чтобы стыки между фразами звучали более естественно. Поддерживаются только модели speech-2.8-hd и speech-2.8-turbo

pronunciation_dict

object

Скрыть properties

tone

array

Определяет правила замены чтения или произношения для текста или символов, которые требуют специальной разметки. В китайском тексте тоны обозначаются цифрами: первый тон — 1, второй — 2, третий — 3, четвертый — 4, нейтральный тон — 5. Пример: [“燕少飞/(yan4)(shao3)(fei1)”, “omg/oh my god”]

Информация ответа

data

object

Возвращаемый объект синтезированных данных; может быть null, поэтому требуется проверка на непустое значение

trace_id

string

id текущей сессии, используемый для помощи в локализации проблемы при обращении за консультацией или отправке отзыва

base_resp

object

Код состояния и сведения о текущем запросе

extra_info

object

Дополнительная информация об аудио

Асинхронный синтез речи MiniMax Speech 2.8 Turbo

Асинхронный синтез речи MiniMax Speech 2.8 HD

​Заголовки запроса

​Тело запроса

​Информация ответа

Заголовки запроса

Тело запроса

Информация ответа