Cette API prend en charge la génération asynchrone de synthèse vocale à partir de texte. Une génération unique de texte peut prendre en charge jusqu’à 1 million de caractères transmis, et le résultat audio complet généré peut être récupéré de manière asynchrone. Elle prend en charge plus de 100 voix système ainsi que la sélection autonome de voix clonées ; elle permet également d’ajuster librement l’intonation, la vitesse, le volume, le débit binaire, la fréquence d’échantillonnage et le format de sortie.Après avoir soumis une requête de synthèse vocale pour un texte long, veuillez noter que l’URL retournée est valide pendant 24 heures à partir du moment où l’URL est retournée. Veillez à télécharger les informations dans les délais.
Adapté à la génération vocale de textes longs, comme des livres entiers. Le temps d’attente en file d’attente peut être relativement long. Pour les scénarios tels que la génération de phrases courtes, le chat vocal ou les interactions sociales en ligne, il est recommandé d’utiliser l’appel synchrone de synthèse vocale.
Plage [-12,12], valeur par défaut : 0Intonation de la voix générée. Facultatif. (0 correspond à la sortie de la voix d’origine ; la valeur doit être un entier).
Ce paramètre prend en charge la normalisation des textes en anglais et peut améliorer les performances dans les scénarios de lecture de nombres, mais il augmente légèrement la latence. S’il n’est pas fourni, la valeur par défaut est false.
Plage 【32000,64000,128000,256000】Débit binaire de la voix générée. Facultatif, valeur par défaut : 128000. Ce paramètre n’est effectif que pour l’audio au format mp3.
Remplace le texte, les symboles et les prononciations correspondantes nécessitant une annotation spéciale.Remplacement de prononciation (ajustement du ton/remplacement de la prononciation d’autres caractères), au format suivant :["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)","omg/oh my god"]Les tons sont indiqués par des chiffres : le premier ton (yinping) est 1, le deuxième ton (yangping) est 2, le troisième ton (shangsheng) est 3, le quatrième ton (qusheng) est 4, et le ton neutre est 5.
Améliore la capacité de reconnaissance pour des langues minoritaires et dialectes spécifiques. Une fois défini, ce paramètre peut améliorer les performances vocales dans les scénarios correspondant à la langue minoritaire/au dialecte spécifié. Si le type de langue minoritaire n’est pas clair, vous pouvez choisir “auto” ; le modèle déterminera alors automatiquement le type de langue minoritaire. Valeurs prises en charge :'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
Ajustement de la hauteur (grave/brillant), plage [-100,100]. Plus la valeur est proche de -100, plus la voix est grave ; plus elle est proche de 100, plus la voix est brillante
Ajustement de l’intensité (puissance/douceur), plage [-100,100]. Plus la valeur est proche de -100, plus la voix est ferme ; plus elle est proche de 100, plus la voix est douce
Ajustement du timbre (magnétique/cristallin), plage [-100,100]. Plus la valeur est proche de -100, plus la voix est ronde et profonde ; plus la valeur est proche de 100, plus la voix est cristalline