Synthèse vocale synchrone MiniMax Speech-2.5-turbo-preview
Audio
Synthèse vocale synchrone MiniMax Speech-2.5-turbo-preview
POST
Synthèse vocale synchrone MiniMax Speech-2.5-turbo-preview
Cette API prend en charge la génération synchrone de texte en parole, avec un maximum de 10000 caractères par transmission de texte. Elle prend en charge plus de 100 voix système et le choix autonome de voix clonées ; le réglage du volume, de l’intonation, de la vitesse et du format de sortie ; le mixage proportionnel et le contrôle d’intervalles fixes ; ainsi que plusieurs spécifications et formats audio, notamment : mp3, pcm, flac, wav, avec prise en charge de la sortie en streaming.
Après avoir soumis une demande de synthèse vocale de texte long, veuillez noter que l’url renvoyée est valable 24 heures à compter de son retour. Veuillez tenir compte du délai de téléchargement des informations.
En-têtes de requête
Valeur d’énumération :
application/jsonFormat d’authentification Bearer : Bearer {{API Key}}.
Corps de la requête
Texte à synthétiser, avec une limite de longueur inférieure à 10000 caractères. Les changements de paragraphe doivent être remplacés par des retours à la ligne. (Si vous devez contrôler l’intervalle dans la voix, ajoutez <#x#> entre les caractères, x étant exprimé en secondes, avec une plage prise en charge de 0.01 à 99.99 et au maximum deux décimales). Les intervalles de temps vocaux entre textes personnalisés sont pris en charge afin d’obtenir un effet de pause vocale personnalisé. Notez que l’intervalle de temps entre les textes doit être défini entre deux textes pouvant être prononcés vocalement, et qu’il n’est pas possible de définir plusieurs intervalles de temps consécutifs.
Obligatoire au choix avec voice_id
Indique si la sortie est en streaming. Par défaut : false, c’est-à-dire que le streaming n’est pas activé.
Renforce la capacité de reconnaissance pour les langues minoritaires et dialectes spécifiés. Une fois défini, ce paramètre peut améliorer les performances vocales dans les scénarios de langue/dialecte spécifiés. Si le type de langue minoritaire n’est pas clairement identifié, vous pouvez choisir “auto” ; le modèle déterminera alors lui-même le type de langue minoritaire. Les valeurs suivantes sont prises en charge :
'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'Paramètre contrôlant la forme du résultat de sortie. Les valeurs possibles sont
url hex. La valeur par défaut est hex. Ce paramètre ne s’applique qu’aux scénarios non streaming ; les scénarios streaming prennent uniquement en charge un retour au format hex. L’url renvoyée est valable 24 heures.Paramètres des effets vocaux. Ce paramètre prend en charge les formats audio suivants :
- Non streaming : mp3, wav, flac
- Streaming : mp3
Informations de réponse
Segment audio synthétisé, encodé en hex et généré selon le format défini en entrée (
audio_setting.format) (mp3/pcm/flac). La forme du retour est déterminée par la définition de output_format ; lorsque stream est true, seul le format de retour hex est pris en charge.État actuel du flux audio, renvoyé uniquement lorsque
stream est true. 1 indique que la synthèse est en cours, 2 indique que la synthèse est terminée.