Synthèse vocale synchrone MiniMax Speech-2.6-turbo
Audio
Synthèse vocale synchrone MiniMax Speech-2.6-turbo
POST
Synthèse vocale synchrone MiniMax Speech-2.6-turbo
Cette API prend en charge la génération synchrone de texte en parole, avec un maximum de 10000 caractères par transmission de texte. Elle prend en charge plus de 100 timbres système et la sélection autonome de timbres clonés ; le réglage du volume, de l’intonation, de la vitesse et du format de sortie ; le mixage proportionnel, le contrôle d’intervalles fixes ; ainsi que plusieurs spécifications et formats audio, notamment : mp3, pcm, flac, wav, avec prise en charge de la sortie en streaming.
Après avoir soumis une demande de synthèse vocale de texte long, veuillez noter que l’URL renvoyée est valide pendant 24 heures à partir de son retour. Veillez à télécharger les informations dans les délais.
En-têtes de requête
Valeur énumérée :
application/jsonFormat d’authentification Bearer : Bearer {{API Key}}.
Corps de la requête
Texte à synthétiser, longueur limitée à moins de 10000 caractères ; les changements de paragraphe doivent être remplacés par des retours à la ligne. (Si vous devez contrôler l’intervalle dans la voix, ajoutez <#x#> entre les caractères, où x est en secondes, avec une plage prise en charge de 0.01 à 99.99 et jusqu’à deux décimales). Prend en charge la personnalisation de l’intervalle vocal entre les textes, afin d’obtenir un effet de pause vocale personnalisé. Notez que l’intervalle entre les textes doit être défini entre deux textes pouvant être prononcés, et qu’il n’est pas possible de définir plusieurs intervalles consécutifs.
Obligatoire au choix avec voice_id
Indique s’il s’agit d’un streaming. Valeur par défaut : false, c’est-à-dire que le streaming n’est pas activé.
Renforce la capacité de reconnaissance pour les langues minoritaires et dialectes spécifiés. Une fois défini, ce paramètre peut améliorer les performances vocales dans les scénarios de langues minoritaires/dialectes spécifiés. Si le type de langue minoritaire n’est pas clair, vous pouvez sélectionner “auto” ; le modèle déterminera alors automatiquement le type de langue minoritaire. Les valeurs suivantes sont prises en charge :
'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'Paramètre contrôlant la forme du résultat de sortie. Valeurs possibles :
url hex. Valeur par défaut : hex. Ce paramètre ne prend effet que dans les scénarios non streaming ; les scénarios streaming ne prennent en charge que le retour au format hex. L’URL renvoyée est valide pendant 24 heures.Paramètres d’effets vocaux. Formats audio pris en charge par ce paramètre :
- Non streaming : mp3, wav, flac
- Streaming : mp3
Informations de réponse
Segment audio synthétisé, encodé en hex, généré selon le format défini en entrée (
audio_setting.format) (mp3/pcm/flac). La forme renvoyée dépend de la définition de output_format ; lorsque stream vaut true, seule la forme de retour hex est prise en charge.État actuel du flux audio, renvoyé uniquement lorsque
stream vaut true. 1 indique que la synthèse est en cours, 2 indique que la synthèse est terminée.