Pular para o conteúdo principal
POST
/
v3
/
minimax-voice-cloning
Clonagem rápida de áudio MiniMax
curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-voice-cloning \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "audio_url": "<string>",
  "text": "<string>",
  "model": "<string>",
  "accuracy": 123,
  "need_noise_reduction": true,
  "need_volume_normalization": true
}
'
{
  "demo_audio_url": "<string>",
  "voice_id": "<string>"
}
Esta interface oferece suporte à clonagem de voz em canal único e canal duplo, permitindo clonar rapidamente uma voz com o mesmo timbre a partir de um arquivo de áudio especificado. O timbre gerado pela clonagem rápida nesta interface é temporário. Se você deseja manter permanentemente um determinado timbre clonado, chame esse timbre em qualquer interface de síntese de voz T2A dentro de 168 horas (7 dias) (não inclui a ação de audição de teste nesta interface); caso contrário, esse timbre será excluído. Cenários aplicáveis desta interface: clonagem de IP, clonagem de timbre e outros cenários relacionados que exigem a clonagem rápida de um determinado timbre. Observações:
  • O formato do arquivo de áudio enviado deve ser: mp3, m4a ou wav;
  • A duração do arquivo de áudio enviado deve ser de no mínimo 10 segundos e no máximo 5 minutos;
  • O tamanho do arquivo de áudio enviado não deve exceder 20mb.

Cabeçalhos da solicitação

Content-Type
string
obrigatório
Valor enumerado: application/json
Authorization
string
obrigatório
Formato de autenticação Bearer: Bearer {{API Key}}.

Corpo da solicitação

audio_url
string
obrigatório
URL do arquivo de áudio cujo timbre precisa ser clonado. Suporta os formatos mp3, m4a e wav.
clone_prompt
Parâmetro de clonagem de timbre. Fornecer este parâmetro ajudará a aumentar a similaridade e a estabilidade do timbre na síntese de voz.Se usar este parâmetro, é necessário enviar simultaneamente um pequeno trecho de áudio de exemplo (duração inferior a 8s) e o texto correspondente ao áudio. O áudio suporta os formatos mp3, m4a e wav.
text
string
Parâmetro de audição de teste da clonagem. O modelo usará o timbre clonado para ler o conteúdo deste texto e retornará o resultado da síntese de áudio em forma de link, para audição do efeito da clonagem. Limite de até 2000 caracteres. Observação: a audição de teste será cobrada normalmente pela síntese de voz de acordo com o número de caracteres, com a mesma precificação das interfaces T2A.
model
string
Parâmetro de audição de teste da clonagem. Especifica o modelo de voz usado na audição de teste; este campo é obrigatório ao enviar o campo “text”.
Opções: speech-02-hd, speech-02-turbo, speech-2.5-hd-preview, speech-2.5-turbo-preview, speech-2.8-hd, speech-2.8-turbo
accuracy
float
Parâmetro de clonagem de áudio. Intervalo de valores: [0,1]. Enviar este campo definirá o limite de precisão da verificação de texto; se não for enviado, o valor padrão deste campo será 0.7.
need_noise_reduction
bool
Parâmetro de clonagem de áudio. Indica se a redução de ruído deve ser ativada. Se não for enviado, o valor padrão será false.
need_volume_normalization
bool
Parâmetro de clonagem de áudio. Indica se a normalização de volume deve ser ativada. Se não for enviado, o valor padrão será false.

Informações de resposta

demo_audio_url
string
Se o texto de audição de teste text e o modelo de audição de teste model forem enviados no corpo da solicitação, este parâmetro retornará o áudio de audição de teste em forma de link.
voice_id
string
O voice_id gerado