Clonación rápida de audio MiniMax
Audio
Clonación rápida de audio MiniMax
POST
Clonación rápida de audio MiniMax
Esta interfaz admite la clonación de voces de uno o dos canales, y permite clonar rápidamente una voz con el mismo timbre a partir de un archivo de audio especificado.
La voz clonada rápidamente generada por esta interfaz es temporal. Si desea conservar permanentemente una voz clonada, invoque dicha voz en cualquier interfaz de síntesis de voz T2A dentro de las 168 horas (7 días) siguientes (sin incluir la acción de prueba dentro de esta interfaz); de lo contrario, la voz será eliminada.
Escenarios aplicables de esta interfaz: clonación de IP, clonación de timbre de voz y otros escenarios relacionados que requieran clonar rápidamente una voz determinada.
Notas:
- El formato del archivo de audio cargado debe ser: mp3, m4a o wav;
- La duración del archivo de audio cargado debe ser como mínimo de 10 segundos y como máximo de 5 minutos;
- El tamaño del archivo de audio cargado no debe superar los 20mb.
Encabezados de solicitud
Valores enumerados:
application/jsonFormato de autenticación Bearer: Bearer {{API Key}}.
Cuerpo de la solicitud
URL del archivo de audio cuya voz se desea clonar. Admite formatos mp3, m4a y wav.
clone_prompt
Parámetro de clonación de voz. Proporcionar este parámetro ayudará a mejorar la similitud y la estabilidad del timbre en la síntesis de voz.Si utiliza este parámetro, debe cargar al mismo tiempo un breve audio de ejemplo (duración inferior a 8s) y el texto correspondiente al audio. El audio admite formatos mp3, m4a y wav.
Parámetro de prueba de la clonación. El modelo utilizará la voz clonada para leer este contenido de texto y devolverá el resultado de la síntesis de audio en forma de enlace, para que pueda comprobar el efecto de la clonación. Límite de 2000 caracteres. Nota: la prueba se cobrará normalmente como síntesis de voz según el número de caracteres, con la misma tarifa que las interfaces T2A.
Parámetro de prueba de la clonación. Especifica el modelo de voz que se utilizará para la prueba; este campo es obligatorio cuando se envía el campo “text”.
Opciones:
Opciones:
speech-02-hd, speech-02-turbo, speech-2.5-hd-preview, speech-2.5-turbo-preview, speech-2.8-hd, speech-2.8-turboParámetro de clonación de audio. Rango de valores [0,1]. Al enviar este campo, se establecerá el umbral de precisión de la verificación de texto; si no se envía, el valor predeterminado de este campo es 0.7.
Parámetro de clonación de audio. Indica si se habilita la reducción de ruido. Si no se envía, el valor predeterminado es false.
Parámetro de clonación de audio. Indica si se habilita la normalización de volumen. Si no se envía, el valor predeterminado es false.
Información de respuesta
Si en el cuerpo de la solicitud se han enviado el texto de prueba text y el modelo de prueba model, este parámetro devolverá el audio de prueba en forma de enlace.
voice_id generado