Clonagem rápida de áudio MiniMax
Áudio
Clonagem rápida de áudio MiniMax
POST
Clonagem rápida de áudio MiniMax
Esta interface oferece suporte à clonagem de voz em canal único e canal duplo, permitindo clonar rapidamente uma voz com o mesmo timbre a partir de um arquivo de áudio especificado.
O timbre gerado pela clonagem rápida nesta interface é temporário. Se você deseja manter permanentemente um determinado timbre clonado, chame esse timbre em qualquer interface de síntese de voz T2A dentro de 168 horas (7 dias) (não inclui a ação de audição de teste nesta interface); caso contrário, esse timbre será excluído.
Cenários aplicáveis desta interface: clonagem de IP, clonagem de timbre e outros cenários relacionados que exigem a clonagem rápida de um determinado timbre.
Observações:
- O formato do arquivo de áudio enviado deve ser: mp3, m4a ou wav;
- A duração do arquivo de áudio enviado deve ser de no mínimo 10 segundos e no máximo 5 minutos;
- O tamanho do arquivo de áudio enviado não deve exceder 20mb.
Cabeçalhos da solicitação
Valor enumerado:
application/jsonFormato de autenticação Bearer: Bearer {{API Key}}.
Corpo da solicitação
URL do arquivo de áudio cujo timbre precisa ser clonado. Suporta os formatos mp3, m4a e wav.
clone_prompt
Parâmetro de clonagem de timbre. Fornecer este parâmetro ajudará a aumentar a similaridade e a estabilidade do timbre na síntese de voz.Se usar este parâmetro, é necessário enviar simultaneamente um pequeno trecho de áudio de exemplo (duração inferior a 8s) e o texto correspondente ao áudio. O áudio suporta os formatos mp3, m4a e wav.
Parâmetro de audição de teste da clonagem. O modelo usará o timbre clonado para ler o conteúdo deste texto e retornará o resultado da síntese de áudio em forma de link, para audição do efeito da clonagem. Limite de até 2000 caracteres. Observação: a audição de teste será cobrada normalmente pela síntese de voz de acordo com o número de caracteres, com a mesma precificação das interfaces T2A.
Parâmetro de audição de teste da clonagem. Especifica o modelo de voz usado na audição de teste; este campo é obrigatório ao enviar o campo “text”.
Opções:
Opções:
speech-02-hd, speech-02-turbo, speech-2.5-hd-preview, speech-2.5-turbo-preview, speech-2.8-hd, speech-2.8-turboParâmetro de clonagem de áudio. Intervalo de valores: [0,1]. Enviar este campo definirá o limite de precisão da verificação de texto; se não for enviado, o valor padrão deste campo será 0.7.
Parâmetro de clonagem de áudio. Indica se a redução de ruído deve ser ativada. Se não for enviado, o valor padrão será false.
Parâmetro de clonagem de áudio. Indica se a normalização de volume deve ser ativada. Se não for enviado, o valor padrão será false.
Informações de resposta
Se o texto de audição de teste text e o modelo de audição de teste model forem enviados no corpo da solicitação, este parâmetro retornará o áudio de audição de teste em forma de link.
O voice_id gerado