Synthèse vocale synchrone MiniMax Speech-02-hd
Audio
Synthèse vocale synchrone MiniMax Speech-02-hd
POST
Synthèse vocale synchrone MiniMax Speech-02-hd
Cette API prend en charge la génération synchrone de texte en parole, avec un maximum de 10000 caractères par transmission de texte. Elle prend en charge plus de 100 voix système, ainsi que le choix autonome de voix répliquées ; elle permet d’ajuster le volume, l’intonation, la vitesse et le format de sortie ; elle prend en charge le mixage proportionnel, le contrôle d’intervalles fixes ; elle prend également en charge plusieurs spécifications et formats audio, notamment : mp3, pcm, flac, wav, ainsi que la sortie en streaming.
Après avoir soumis une requête de synthèse vocale pour un texte long, veuillez noter que l’URL renvoyée est valide pendant 24 heures à compter du moment où elle est renvoyée. Veillez à télécharger les informations dans les délais.
En-têtes de requête
Valeur énumérée :
application/jsonFormat d’authentification Bearer : Bearer {{API Key}}.
Corps de la requête
Texte à synthétiser, d’une longueur inférieure à 10000 caractères ; les changements de paragraphe doivent être remplacés par des retours à la ligne. (Si vous devez contrôler les intervalles dans la voix, ajoutez <#x#> entre les caractères, où x est exprimé en secondes, avec une plage prise en charge de 0.01 à 99.99 et au maximum deux décimales). Prend en charge la personnalisation de l’intervalle temporel vocal entre les textes afin d’obtenir des pauses vocales personnalisées. Veuillez noter que l’intervalle entre les textes doit être défini entre deux segments de texte prononçables et qu’il n’est pas possible de définir plusieurs intervalles temporels consécutifs.
Obligatoire au choix avec voice_id
Indique si la sortie est en streaming. Par défaut : false, c’est-à-dire que le streaming n’est pas activé.
Améliore la capacité de reconnaissance pour les langues minoritaires et dialectes spécifiés. Une fois défini, ce paramètre peut améliorer les performances vocales dans les scénarios de langues minoritaires/dialectes spécifiés. Si le type de langue minoritaire n’est pas clair, vous pouvez choisir “auto” ; le modèle déterminera alors automatiquement le type de langue minoritaire. Les valeurs suivantes sont prises en charge :
'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'Paramètre contrôlant la forme du résultat de sortie. Les valeurs possibles sont
url hex. La valeur par défaut est hex. Ce paramètre ne prend effet que dans les scénarios non streaming ; en streaming, seul le retour au format hex est pris en charge. L’URL renvoyée est valide pendant 24 heures.Paramètres d’effets vocaux. Ce paramètre prend en charge les formats audio suivants :
- Non streaming : mp3, wav, flac
- Streaming : mp3
Informations de réponse
Segment audio synthétisé, encodé en hex, généré selon le format défini en entrée (
audio_setting.format) (mp3/pcm/flac). La forme du retour dépend de la définition de output_format ; lorsque stream vaut true, seul le retour au format hex est pris en charge.État actuel du flux audio, renvoyé uniquement lorsque
stream vaut true. 1 indique que la synthèse est en cours, 2 indique que la synthèse est terminée.