Saltar al contenido principal
POST
/
v3
/
minimax-voice-cloning
Clonación rápida de audio MiniMax
curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-voice-cloning \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "audio_url": "<string>",
  "text": "<string>",
  "model": "<string>",
  "accuracy": 123,
  "need_noise_reduction": true,
  "need_volume_normalization": true
}
'
{
  "demo_audio_url": "<string>",
  "voice_id": "<string>"
}
Esta interfaz admite la clonación de voces de uno o dos canales, y permite clonar rápidamente una voz con el mismo timbre a partir de un archivo de audio especificado. La voz clonada rápidamente generada por esta interfaz es temporal. Si desea conservar permanentemente una voz clonada, invoque dicha voz en cualquier interfaz de síntesis de voz T2A dentro de las 168 horas (7 días) siguientes (sin incluir la acción de prueba dentro de esta interfaz); de lo contrario, la voz será eliminada. Escenarios aplicables de esta interfaz: clonación de IP, clonación de timbre de voz y otros escenarios relacionados que requieran clonar rápidamente una voz determinada. Notas:
  • El formato del archivo de audio cargado debe ser: mp3, m4a o wav;
  • La duración del archivo de audio cargado debe ser como mínimo de 10 segundos y como máximo de 5 minutos;
  • El tamaño del archivo de audio cargado no debe superar los 20mb.

Encabezados de solicitud

Content-Type
string
requerido
Valores enumerados: application/json
Authorization
string
requerido
Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

audio_url
string
requerido
URL del archivo de audio cuya voz se desea clonar. Admite formatos mp3, m4a y wav.
clone_prompt
Parámetro de clonación de voz. Proporcionar este parámetro ayudará a mejorar la similitud y la estabilidad del timbre en la síntesis de voz.Si utiliza este parámetro, debe cargar al mismo tiempo un breve audio de ejemplo (duración inferior a 8s) y el texto correspondiente al audio. El audio admite formatos mp3, m4a y wav.
text
string
Parámetro de prueba de la clonación. El modelo utilizará la voz clonada para leer este contenido de texto y devolverá el resultado de la síntesis de audio en forma de enlace, para que pueda comprobar el efecto de la clonación. Límite de 2000 caracteres. Nota: la prueba se cobrará normalmente como síntesis de voz según el número de caracteres, con la misma tarifa que las interfaces T2A.
model
string
Parámetro de prueba de la clonación. Especifica el modelo de voz que se utilizará para la prueba; este campo es obligatorio cuando se envía el campo “text”.
Opciones: speech-02-hd, speech-02-turbo, speech-2.5-hd-preview, speech-2.5-turbo-preview, speech-2.8-hd, speech-2.8-turbo
accuracy
float
Parámetro de clonación de audio. Rango de valores [0,1]. Al enviar este campo, se establecerá el umbral de precisión de la verificación de texto; si no se envía, el valor predeterminado de este campo es 0.7.
need_noise_reduction
bool
Parámetro de clonación de audio. Indica si se habilita la reducción de ruido. Si no se envía, el valor predeterminado es false.
need_volume_normalization
bool
Parámetro de clonación de audio. Indica si se habilita la normalización de volumen. Si no se envía, el valor predeterminado es false.

Información de respuesta

demo_audio_url
string
Si en el cuerpo de la solicitud se han enviado el texto de prueba text y el modelo de prueba model, este parámetro devolverá el audio de prueba en forma de enlace.
voice_id
string
voice_id generado