Clonage audio rapide MiniMax
Audio
Clonage audio rapide MiniMax
POST
Clonage audio rapide MiniMax
Cette interface prend en charge le clonage vocal en mono et en stéréo, et permet de reproduire rapidement une voix au timbre identique à partir d’un fichier audio spécifié.
Le timbre vocal cloné rapidement généré par cette interface est temporaire. Si vous souhaitez conserver définitivement un timbre vocal cloné, veuillez l’appeler dans n’importe quelle interface de synthèse vocale T2A dans un délai de 168 heures (7 jours) (hors comportement d’écoute de démonstration dans cette interface) ; sinon, ce timbre vocal sera supprimé.
Scénarios d’utilisation de cette interface : clonage d’IP, clonage de timbre vocal et autres scénarios nécessitant de reproduire rapidement un timbre vocal donné.
Remarques :
- Le format du fichier audio téléversé doit être : mp3, m4a ou wav ;
- La durée du fichier audio téléversé doit être d’au moins 10 secondes et ne doit pas dépasser 5 minutes ;
- La taille du fichier audio téléversé ne doit pas dépasser 20 Mo.
En-têtes de requête
Valeur d’énumération :
application/jsonFormat d’authentification Bearer : Bearer {{API Key}}.
Corps de la requête
URL du fichier audio dont le timbre vocal doit être cloné. Formats pris en charge : mp3, m4a, wav.
clone_prompt
Paramètres de clonage du timbre vocal. Fournir ce paramètre contribuera à améliorer la similarité et la stabilité du timbre vocal lors de la synthèse vocale.Si vous utilisez ce paramètre, vous devez téléverser simultanément un court exemple audio (durée inférieure à 8 s) ainsi que le texte correspondant à cet audio. Les formats audio pris en charge sont mp3, m4a et wav.
Paramètre d’écoute de démonstration du clonage. Le modèle utilisera le timbre vocal cloné pour lire le contenu textuel de ce paragraphe, puis renverra le résultat de synthèse audio sous forme de lien afin de permettre l’écoute de l’effet de clonage. Limité à 2000 caractères. Remarque : l’écoute de démonstration sera facturée normalement comme synthèse vocale en fonction du nombre de caractères, avec la même tarification que les différentes interfaces T2A.
Paramètre d’écoute de démonstration du clonage. Spécifie le modèle vocal utilisé pour l’écoute de démonstration ; ce champ est obligatoire lorsque le champ “text” est transmis.
Options disponibles :
Options disponibles :
speech-02-hd, speech-02-turbo, speech-2.5-hd-preview, speech-2.5-turbo-preview, speech-2.8-hd, speech-2.8-turboParamètre de clonage audio. Plage de valeurs : [0,1]. Si ce champ est fourni, il définira le seuil de précision de la vérification du texte. S’il n’est pas fourni, sa valeur par défaut est 0.7.
Paramètre de clonage audio. Indique s’il faut activer la réduction du bruit. Par défaut, la valeur est false si le champ n’est pas fourni.
Paramètre de clonage audio. Indique s’il faut activer la normalisation du volume. Par défaut, la valeur est false si le champ n’est pas fourni.
Informations de réponse
Si le texte d’écoute de démonstration text ainsi que le modèle d’écoute de démonstration model sont transmis dans le corps de la requête, ce paramètre renverra l’audio de démonstration sous forme de lien.
voice_id généré