Перейти к основному содержанию
POST
/
v3
/
minimax-voice-cloning
Быстрое клонирование аудио MiniMax
curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-voice-cloning \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "audio_url": "<string>",
  "text": "<string>",
  "model": "<string>",
  "accuracy": 123,
  "need_noise_reduction": true,
  "need_volume_normalization": true
}
'
{
  "demo_audio_url": "<string>",
  "voice_id": "<string>"
}
Этот интерфейс поддерживает клонирование голоса в моно- и стереорежиме, а также быстрое создание речи с тем же тембром на основе указанного аудиофайла. Тембр, быстро клонированный этим интерфейсом, является временным. Если вы хотите сохранить определенный клонированный тембр навсегда, вызовите этот тембр в любом интерфейсе синтеза речи T2A в течение 168 часов (7 дней) (прослушивание внутри данного интерфейса не учитывается); в противном случае этот тембр будет удален. Сценарии применения этого интерфейса: клонирование IP, клонирование тембра и другие сценарии, где требуется быстро воспроизвести определенный тембр. Примечания:
  • Формат загружаемого аудиофайла должен быть: mp3, m4a, wav;
  • Длительность загружаемого аудиофайла должна быть не менее 10 секунд и не более 5 минут;
  • Размер загружаемого аудиофайла не должен превышать 20mb.

Заголовки запроса

Content-Type
string
обязательно
Перечисляемое значение: application/json
Authorization
string
обязательно
Формат Bearer-аутентификации: Bearer {{API-ключ}}.

Тело запроса

audio_url
string
обязательно
URL аудиофайла, тембр которого нужно клонировать. Поддерживаются форматы mp3, m4a, wav.
clone_prompt
Параметры клонирования тембра. Передача этого параметра поможет повысить сходство тембра и стабильность синтеза речи.При использовании этого параметра необходимо одновременно загрузить небольшой пример аудио (длительностью менее 8s) и соответствующий ему текст; аудио поддерживает форматы mp3, m4a, wav.
text
string
Параметр пробного прослушивания клонирования. Модель произнесет данный текст с клонированным тембром и вернет результат синтеза аудио в виде ссылки для прослушивания эффекта клонирования. Ограничение — до 2000 символов. Примечание: за пробное прослушивание будет взиматься стандартная плата за синтез речи в зависимости от количества символов; тарифы соответствуют интерфейсам T2A.
model
string
Параметр пробного прослушивания клонирования. Задает голосовую модель, используемую для прослушивания; при передаче поля “text” это поле обязательно.
Доступные варианты: speech-02-hd, speech-02-turbo, speech-2.5-hd-preview, speech-2.5-turbo-preview, speech-2.8-hd, speech-2.8-turbo
accuracy
float
Параметр клонирования аудио. Диапазон значений: [0,1]. При передаче этого поля будет установлен порог точности проверки текста; если поле не передано, значение по умолчанию — 0.7.
need_noise_reduction
bool
Параметр клонирования аудио. Включать ли шумоподавление. Если не передано, по умолчанию используется false.
need_volume_normalization
bool
Параметр клонирования аудио. Включать ли нормализацию громкости. Если не передано, по умолчанию используется false.

Информация об ответе

demo_audio_url
string
Если в теле запроса переданы текст для пробного прослушивания text и модель для пробного прослушивания model, этот параметр вернет пробное аудио в виде ссылки.
voice_id
string
Сгенерированный voice_id