Voice Cloning API | Быстрое клонирование аудио MiniMax

Быстрое клонирование аудио MiniMax

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-voice-cloning \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "audio_url": "<string>",
  "text": "<string>",
  "model": "<string>",
  "accuracy": 123,
  "need_noise_reduction": true,
  "need_volume_normalization": true
}
'

{
  "demo_audio_url": "<string>",
  "voice_id": "<string>"
}

POST

minimax-voice-cloning

Быстрое клонирование аудио MiniMax

curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-voice-cloning \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "audio_url": "<string>",
  "text": "<string>",
  "model": "<string>",
  "accuracy": 123,
  "need_noise_reduction": true,
  "need_volume_normalization": true
}
'

{
  "demo_audio_url": "<string>",
  "voice_id": "<string>"
}

Этот интерфейс поддерживает клонирование голоса в моно- и стереорежиме, а также быстрое создание речи с тем же тембром на основе указанного аудиофайла. Тембр, быстро клонированный этим интерфейсом, является временным. Если вы хотите сохранить определенный клонированный тембр навсегда, вызовите этот тембр в любом интерфейсе синтеза речи T2A в течение 168 часов (7 дней) (прослушивание внутри данного интерфейса не учитывается); в противном случае этот тембр будет удален. Сценарии применения этого интерфейса: клонирование IP, клонирование тембра и другие сценарии, где требуется быстро воспроизвести определенный тембр. Примечания:

Формат загружаемого аудиофайла должен быть: mp3, m4a, wav;
Длительность загружаемого аудиофайла должна быть не менее 10 секунд и не более 5 минут;
Размер загружаемого аудиофайла не должен превышать 20mb.

Заголовки запроса

Content-Type

string

обязательно

Перечисляемое значение: application/json

Authorization

string

обязательно

Формат Bearer-аутентификации: Bearer {{API-ключ}}.

Тело запроса

audio_url

string

обязательно

URL аудиофайла, тембр которого нужно клонировать. Поддерживаются форматы mp3, m4a, wav.

clone_prompt

Параметры клонирования тембра. Передача этого параметра поможет повысить сходство тембра и стабильность синтеза речи.При использовании этого параметра необходимо одновременно загрузить небольшой пример аудио (длительностью менее 8s) и соответствующий ему текст; аудио поддерживает форматы mp3, m4a, wav.

Показать properties

prompt_audio_url

number

обязательно

Параметр аудио prompt: URL примера аудио, длительность должна быть меньше 8s.

prompt_text

string

обязательно

Параметр аудио prompt: укажите соответствующий текст для примера аудио. Необходимо убедиться, что он совпадает с содержанием аудио; в конце предложения должен быть знак препинания.

text

string

Параметр пробного прослушивания клонирования. Модель произнесет данный текст с клонированным тембром и вернет результат синтеза аудио в виде ссылки для прослушивания эффекта клонирования. Ограничение — до 2000 символов. Примечание: за пробное прослушивание будет взиматься стандартная плата за синтез речи в зависимости от количества символов; тарифы соответствуют интерфейсам T2A.

model

string

Параметр пробного прослушивания клонирования. Задает голосовую модель, используемую для прослушивания; при передаче поля “text” это поле обязательно.
Доступные варианты: speech-02-hd, speech-02-turbo, speech-2.5-hd-preview, speech-2.5-turbo-preview, speech-2.8-hd, speech-2.8-turbo

accuracy

float

Параметр клонирования аудио. Диапазон значений: [0,1]. При передаче этого поля будет установлен порог точности проверки текста; если поле не передано, значение по умолчанию — 0.7.

need_noise_reduction

bool

Параметр клонирования аудио. Включать ли шумоподавление. Если не передано, по умолчанию используется false.

need_volume_normalization

bool

Параметр клонирования аудио. Включать ли нормализацию громкости. Если не передано, по умолчанию используется false.

Информация об ответе

demo_audio_url

string

Если в теле запроса переданы текст для пробного прослушивания text и модель для пробного прослушивания model, этот параметр вернет пробное аудио в виде ссылки.

voice_id

string

Сгенерированный voice_id

MiniMax Speech 2.8 HD синхронный синтез речи

ElevenLabs Преобразование речи в текст V1

​Заголовки запроса

​Тело запроса

​Информация об ответе

Заголовки запроса

Тело запроса

Информация об ответе