Synthèse vocale synchrone MiniMax Speech-02-turbo
Audio
Synthèse vocale synchrone MiniMax Speech-02-turbo
POST
Synthèse vocale synchrone MiniMax Speech-02-turbo
Cette API prend en charge la génération synchrone de voix à partir de texte, avec un maximum de 10000 caractères par transmission de texte. Elle prend en charge plus de 100 voix système ainsi que la sélection autonome de voix clonées ; le réglage du volume, de l’intonation, de la vitesse et du format de sortie ; le mixage proportionnel de plusieurs timbres et le contrôle d’intervalles fixes ; plusieurs spécifications et formats audio, notamment : mp3, pcm, flac, wav, ainsi que la sortie en streaming.
Après l’envoi d’une requête de synthèse vocale de texte long, veuillez noter que l’URL retournée est valide pendant 24 heures à compter de son retour. Veuillez tenir compte de ce délai pour télécharger les informations.
En-têtes de requête
Valeur énumérée :
application/jsonFormat d’authentification Bearer : Bearer {{clé API}}.
Corps de la requête
Texte à synthétiser, avec une longueur limitée à moins de 10000 caractères. Les changements de paragraphe doivent être remplacés par des retours à la ligne. (Si vous devez contrôler les intervalles dans la voix, ajoutez <#x#> entre les caractères ; x est exprimé en secondes, avec une plage prise en charge de 0.01 à 99.99 et au maximum deux décimales). Les intervalles vocaux personnalisés entre textes sont pris en charge afin de créer des pauses personnalisées dans la synthèse vocale. Notez que l’intervalle entre textes doit être défini entre deux segments de texte pouvant être prononcés, et que plusieurs intervalles consécutifs ne peuvent pas être définis.
L’un des deux champs
timbre_weights ou voice_id est obligatoireIndique si le streaming est activé. Par défaut : false, c’est-à-dire que le streaming n’est pas activé.
Améliore la capacité de reconnaissance pour les langues minoritaires et dialectes spécifiés. Une fois configuré, ce paramètre peut améliorer les performances vocales dans les scénarios correspondant à la langue minoritaire/au dialecte spécifié. Si le type de langue minoritaire n’est pas clairement identifié, vous pouvez sélectionner “auto” ; le modèle déterminera automatiquement le type de langue minoritaire. Les valeurs suivantes sont prises en charge :
'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'Paramètre contrôlant la forme du résultat de sortie. Les valeurs possibles sont
url et hex. La valeur par défaut est hex. Ce paramètre ne s’applique qu’aux scénarios non streaming ; les scénarios streaming ne prennent en charge que le retour au format hex. L’URL retournée est valide pendant 24 heures.Paramètres des effets vocaux. Ce paramètre prend en charge les formats audio suivants :
- Non streaming : mp3, wav, flac
- Streaming : mp3
Informations de réponse
Segment audio synthétisé, encodé en hex, généré selon le format défini en entrée (
audio_setting.format) (mp3/pcm/flac). La forme de retour dépend de la définition de output_format. Lorsque stream vaut true, seul le retour au format hex est pris en charge.État actuel du flux audio, retourné uniquement lorsque
stream vaut true. 1 indique que la synthèse est en cours ; 2 indique que la synthèse est terminée.