Cette API prend en charge la génération synchrone de texte en parole, avec une limite maximale de 10000 caractères par transmission de texte. Elle prend en charge plus de 100 voix système et la sélection libre de voix clonées ; l’ajustement du volume, de l’intonation, de la vitesse de parole et du format de sortie ; le mixage proportionnel et le contrôle d’intervalles fixes ; ainsi que plusieurs spécifications et formats audio, notamment : mp3, pcm, flac, wav, avec prise en charge de la sortie en streaming.Après l’envoi d’une requête de synthèse vocale de texte long, veuillez noter que l’url retournée est valable pendant 24 heures à compter de son retour. Veillez à télécharger les informations dans les délais.
Adapté aux scénarios tels que la génération de phrases courtes, le chat vocal et les interactions sociales en ligne. Le temps de traitement est court, mais la longueur du texte est limitée à moins de 10000 caractères. Pour les textes longs, il est recommandé d’utiliser l’appel asynchrone de synthèse vocale.
Texte à synthétiser, longueur limitée à moins de 10000 caractères ; les changements de paragraphe doivent être remplacés par des retours à la ligne. (Si vous devez contrôler les intervalles dans la parole, ajoutez <#x#> entre les caractères, où x est en secondes, avec une plage prise en charge de 0.01 à 99.99 et jusqu’à deux décimales). Prend en charge la personnalisation de l’intervalle temporel vocal entre deux textes afin de créer des pauses vocales personnalisées. Veuillez noter que l’intervalle entre les textes doit être défini entre deux segments pouvant être prononcés, et que plusieurs intervalles consécutifs ne peuvent pas être définis.
Plage [0.5,2], valeur par défaut : 1.0Vitesse de parole de la voix générée. Optionnel ; plus la valeur est élevée, plus la vitesse de parole est rapide.
Plage [-12,12], valeur par défaut : 0Intonation de la voix générée. Optionnel ; (0 correspond à la sortie de la voix d’origine, la valeur doit être un entier).
Identifiant de la voix demandée. Obligatoire au choix avec timbre_weights.Deux types sont pris en charge : voix système (id) et voix clonées (id). Les voix système (ID) sont les suivantes :
Voix de jeune homme timide : male-qn-qingse
Voix de jeune homme d’élite : male-qn-jingying
Voix de jeune homme autoritaire : male-qn-badao
Voix de jeune étudiant universitaire : male-qn-daxuesheng
Voix de jeune fille : female-shaonv
Voix de femme mature et assurée : female-yujie
Voix de femme mûre : female-chengshu
Voix de femme douce : female-tianmei
Présentateur masculin : presenter_male
Présentatrice féminine : presenter_female
Livre audio masculin 1 : audiobook_male_1
Livre audio masculin 2 : audiobook_male_2
Livre audio féminin 1 : audiobook_female_1
Livre audio féminin 2 : audiobook_female_2
Voix de jeune homme timide-beta : male-qn-qingse-jingpin
Voix de jeune homme d’élite-beta : male-qn-jingying-jingpin
Voix de jeune homme autoritaire-beta : male-qn-badao-jingpin
Voix de jeune étudiant universitaire-beta : male-qn-daxuesheng-jingpin
Voix de jeune fille-beta : female-shaonv-jingpin
Voix de femme mature et assurée-beta : female-yujie-jingpin
Voix de femme mûre-beta : female-chengshu-jingpin
Voix de femme douce-beta : female-tianmei-jingpin
Garçon intelligent : clever_boy
Garçon mignon : cute_boy
Petite fille adorable : lovely_girl
Cochon de dessin animé Xiaoqi : cartoon_pig
Petit frère maladivement attachant : bingjiao_didi
Ce paramètre prend en charge la normalisation des textes anglais, ce qui peut améliorer les performances dans les scénarios de lecture de nombres, mais augmente légèrement la latence. S’il n’est pas fourni, la valeur par défaut est false.
Plage 【32000,64000,128000,256000】Débit binaire de la voix générée. Optionnel, valeur par défaut : 128000. Ce paramètre ne s’applique qu’à l’audio au format mp3.
Remplace les textes, symboles et prononciations correspondantes nécessitant une annotation spéciale.Remplacement de prononciation (ajustement du ton/remplacement de la prononciation d’autres caractères), au format suivant :["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)","omg/oh my god"]Les tons sont représentés par des chiffres : le premier ton (yinping) est 1, le deuxième ton (yangping) est 2, le troisième ton (shangsheng) est 3, le quatrième ton (qusheng) est 4, et le ton léger est 5.
Plage [1,100]Poids, à renseigner avec voice_id. Jusqu’à 4 voix peuvent être mélangées. La valeur doit être un entier ; plus la proportion d’une voix unique est élevée, plus la voix synthétisée lui ressemble.
Lorsque ce paramètre est défini sur True, le dernier chunk du streaming ne contiendra pas les données hex complètes de l’audio concaténé. Par défaut : False, ce qui signifie que le dernier chunk contient les données hex complètes de l’audio concaténé.
Renforce la capacité de reconnaissance pour les langues minoritaires et dialectes spécifiés. Une fois défini, ce paramètre peut améliorer les performances vocales dans les scénarios correspondant à la langue minoritaire/au dialecte spécifié. Si le type de langue minoritaire n’est pas clair, vous pouvez choisir “auto” ; le modèle déterminera automatiquement le type de langue minoritaire. Les valeurs suivantes sont prises en charge :'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
Paramètre contrôlant la forme du résultat de sortie. Les valeurs possibles sont url et hex. La valeur par défaut est hex. Ce paramètre ne prend effet que dans les scénarios non streaming ; les scénarios streaming ne prennent en charge que le retour au format hex. L’url retournée est valable 24 heures.
Ajustement de la hauteur (grave/brillante), plage [-100,100] ; plus la valeur est proche de -100, plus la voix est grave ; plus elle est proche de 100, plus la voix est brillante
Ajustement de l’intensité (puissance/douceur), plage [-100,100] ; plus la valeur est proche de -100, plus la voix est énergique ; plus elle est proche de 100, plus la voix est douce
Ajustement du timbre (magnétique/clair), plage [-100,100] ; plus la valeur est proche de -100, plus la voix est riche ; plus la valeur est proche de 100, plus la voix est claire
Segment audio synthétisé, encodé en hex, généré selon le format défini en entrée (audio_setting.format) (mp3/pcm/flac). La forme du retour dépend de la définition de output_format ; lorsque stream est true, seule la forme de retour hex est prise en charge.
État actuel du flux audio, retourné uniquement lorsque stream est true. 1 indique que la synthèse est en cours, 2 indique que la synthèse est terminée.