Synthèse vocale synchrone MiniMax Speech-2.5-hd-preview
Audio
Synthèse vocale synchrone MiniMax Speech-2.5-hd-preview
POST
Synthèse vocale synchrone MiniMax Speech-2.5-hd-preview
Cette API prend en charge la génération synchrone de texte en parole, avec un maximum de 10000 caractères par envoi de texte. Elle prend en charge plus de 100 voix système et la sélection autonome de voix clonées ; le réglage du volume, de l’intonation, de la vitesse et du format de sortie ; le mixage proportionnel et le contrôle d’intervalles fixes ; plusieurs spécifications et formats audio, notamment : mp3, pcm, flac, wav, ainsi que la sortie en streaming.
Après l’envoi d’une demande de synthèse vocale pour un texte long, veuillez noter que l’url renvoyée est valide pendant 24 heures à compter de sa génération. Veillez à télécharger les informations dans le délai imparti.
En-têtes de requête
Valeur énumérée :
application/jsonFormat d’authentification Bearer : Bearer {{API Key}}.
Corps de la requête
Texte à synthétiser, limité à moins de 10000 caractères. Les changements de paragraphe doivent être remplacés par des retours à la ligne. (Si vous devez contrôler le temps d’intervalle dans la parole, ajoutez <#x#> entre les caractères ; l’unité de x est la seconde, avec une plage de 0.01 à 99.99 et au maximum deux décimales). Les intervalles de temps vocaux personnalisés entre les textes sont pris en charge afin d’obtenir des pauses vocales personnalisées. Veuillez noter que l’intervalle de temps doit être placé entre deux segments de texte pouvant être prononcés, et que plusieurs intervalles de temps consécutifs ne peuvent pas être définis.
Obligatoire, au choix avec voice_id
Indique si le streaming est activé. Par défaut false, c’est-à-dire que le streaming n’est pas activé.
Renforce la capacité de reconnaissance pour les langues minoritaires et dialectes spécifiés. Après configuration, cela peut améliorer les performances vocales dans les scénarios correspondant à la langue minoritaire/au dialecte spécifié. Si le type de langue minoritaire n’est pas clair, vous pouvez choisir “auto” ; le modèle déterminera alors automatiquement le type de langue minoritaire. Les valeurs suivantes sont prises en charge :
'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'Paramètre contrôlant la forme du résultat de sortie. Les valeurs possibles sont
url hex. La valeur par défaut est hex. Ce paramètre ne s’applique qu’aux scénarios non streaming ; les scénarios en streaming prennent uniquement en charge le retour au format hex. L’url renvoyée est valide pendant 24 heures.Paramètres d’effets vocaux. Ce paramètre prend en charge les formats audio suivants :
- Non streaming : mp3, wav, flac
- Streaming : mp3
Informations de réponse
Segment audio synthétisé, encodé en hex, généré conformément au format défini en entrée (
audio_setting.format) (mp3/pcm/flac). La forme du retour dépend de la définition de output_format ; lorsque stream vaut true, seule la forme de retour hex est prise en charge.État actuel du flux audio, renvoyé uniquement lorsque
stream vaut true. 1 indique que la synthèse est en cours, 2 indique que la synthèse est terminée.