Cette API prend en charge la génération asynchrone de texte en parole. Une seule transmission de génération de texte prend en charge jusqu’à 1 million de caractères, et le résultat audio complet généré peut être récupéré de manière asynchrone. Elle prend en charge plus de 100 voix système ainsi que le choix de voix clonées ; elle permet également d’ajuster librement l’intonation, la vitesse, le volume, le débit binaire, le taux d’échantillonnage et le format de sortie.Après avoir soumis une demande de synthèse vocale de texte long, veuillez noter que l’url retournée est valide pendant 24 heures à compter du moment où elle est retournée. Veuillez faire attention au délai de téléchargement des informations.
Adapté à la génération vocale de textes longs, tels que des livres entiers ; le temps d’attente en file de tâche peut être relativement long. Pour les scénarios tels que la génération de phrases courtes, le chat vocal et les interactions sociales en ligne, il est recommandé d’utiliser la synthèse vocale par appel synchrone.
Plage [-12,12], valeur par défaut : 0Intonation de la voix générée. Optionnel ; (0 correspond à la sortie de la voix d’origine, la valeur doit être un entier).
Identifiant de la voix demandée.Prend en charge deux types : les voix système (id) et les voix clonées (id). Les voix système (ID) sont les suivantes :
Voix de jeune homme encore juvénile : male-qn-qingse
Ce paramètre prend en charge la normalisation du texte anglais, ce qui peut améliorer les performances dans les scénarios de lecture de nombres, mais augmente légèrement la latence. S’il n’est pas fourni, la valeur par défaut est false.
Plage 【32000,64000,128000,256000】Débit binaire de la voix générée. Optionnel, valeur par défaut : 128000. Ce paramètre ne s’applique qu’aux audios au format mp3.
Remplace le texte, les symboles et les prononciations correspondantes nécessitant une annotation spéciale.Remplacement de la prononciation (ajustement du ton/remplacement de la prononciation d’autres caractères), au format suivant :["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)","omg/oh my god"]Les tons sont remplacés par des chiffres : premier ton (yinping) = 1, deuxième ton (yangping) = 2, troisième ton (shangsheng) = 3, quatrième ton (qusheng) = 4, ton léger = 5.
Renforce la capacité de reconnaissance des langues minoritaires et dialectes spécifiés. Une fois défini, ce paramètre peut améliorer les performances vocales dans les scénarios de langue minoritaire/dialecte spécifiés. Si le type de langue minoritaire n’est pas clair, vous pouvez choisir “auto” ; le modèle déterminera automatiquement le type de langue minoritaire. Les valeurs suivantes sont prises en charge :'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
Ajustement de la hauteur (grave/clair), plage [-100,100] ; plus la valeur est proche de -100, plus la voix est grave ; plus elle est proche de 100, plus la voix est claire
Ajustement de l’intensité (puissance/douceur), plage [-100,100] ; plus la valeur est proche de -100, plus la voix est ferme ; plus elle est proche de 100, plus la voix est douce
Ajustement du timbre (magnétique/cristallin), plage [-100,100] ; plus la valeur est proche de -100, plus la voix est ample ; plus elle est proche de 100, plus la voix est cristalline