Быстрое клонирование аудио MiniMax
Аудио
Быстрое клонирование аудио MiniMax
POST
Быстрое клонирование аудио MiniMax
Этот интерфейс поддерживает клонирование голоса в моно- и стереорежиме, а также быстрое создание речи с тем же тембром на основе указанного аудиофайла.
Тембр, быстро клонированный этим интерфейсом, является временным. Если вы хотите сохранить определенный клонированный тембр навсегда, вызовите этот тембр в любом интерфейсе синтеза речи T2A в течение 168 часов (7 дней) (прослушивание внутри данного интерфейса не учитывается); в противном случае этот тембр будет удален.
Сценарии применения этого интерфейса: клонирование IP, клонирование тембра и другие сценарии, где требуется быстро воспроизвести определенный тембр.
Примечания:
- Формат загружаемого аудиофайла должен быть: mp3, m4a, wav;
- Длительность загружаемого аудиофайла должна быть не менее 10 секунд и не более 5 минут;
- Размер загружаемого аудиофайла не должен превышать 20mb.
Заголовки запроса
Перечисляемое значение:
application/jsonФормат Bearer-аутентификации: Bearer {{API-ключ}}.
Тело запроса
URL аудиофайла, тембр которого нужно клонировать. Поддерживаются форматы mp3, m4a, wav.
clone_prompt
Параметры клонирования тембра. Передача этого параметра поможет повысить сходство тембра и стабильность синтеза речи.При использовании этого параметра необходимо одновременно загрузить небольшой пример аудио (длительностью менее 8s) и соответствующий ему текст; аудио поддерживает форматы mp3, m4a, wav.
Параметр пробного прослушивания клонирования. Модель произнесет данный текст с клонированным тембром и вернет результат синтеза аудио в виде ссылки для прослушивания эффекта клонирования. Ограничение — до 2000 символов. Примечание: за пробное прослушивание будет взиматься стандартная плата за синтез речи в зависимости от количества символов; тарифы соответствуют интерфейсам T2A.
Параметр пробного прослушивания клонирования. Задает голосовую модель, используемую для прослушивания; при передаче поля “text” это поле обязательно.
Доступные варианты:
Доступные варианты:
speech-02-hd, speech-02-turbo, speech-2.5-hd-preview, speech-2.5-turbo-preview, speech-2.8-hd, speech-2.8-turboПараметр клонирования аудио. Диапазон значений: [0,1]. При передаче этого поля будет установлен порог точности проверки текста; если поле не передано, значение по умолчанию — 0.7.
Параметр клонирования аудио. Включать ли шумоподавление. Если не передано, по умолчанию используется false.
Параметр клонирования аудио. Включать ли нормализацию громкости. Если не передано, по умолчанию используется false.
Информация об ответе
Если в теле запроса переданы текст для пробного прослушивания text и модель для пробного прослушивания model, этот параметр вернет пробное аудио в виде ссылки.
Сгенерированный voice_id