Convertit du texte en parole, avec prise en charge de plusieurs voix, du contrôle des émotions, du réglage de la vitesse d’élocution, etc. La longueur du texte doit être inférieure à 10000 caractères. Si le texte dépasse 3000 caractères, il est recommandé d’utiliser une sortie en streaming.
Texte à synthétiser en parole. La longueur doit être inférieure à 10000 caractères. Si le texte dépasse 3000 caractères, il est recommandé d’utiliser une sortie en streaming. Prend en charge les changements de paragraphe (sauts de ligne), le contrôle des pauses (marqueur <#x#>) et les balises d’interjections (comme (laughs), (coughs), etc., uniquement prises en charge par speech-2.8-hd/turbo)
Ajustement de la hauteur (grave/brillant), plage [-100, 100]. Plus la valeur est proche de -100, plus la voix est grave ; plus elle est proche de 100, plus la voix est brillantePlage de valeurs : [-100, 100]
Ajustement du timbre (magnétique/cristallin), plage [-100, 100]. Plus la valeur est proche de -100, plus la voix est épaisse ; plus elle est proche de 100, plus la voix est cristallinePlage de valeurs : [-100, 100]
Ajustement de l’intensité (puissant/doux), plage [-100, 100]. Plus la valeur est proche de -100, plus la voix est ferme ; plus elle est proche de 100, plus la voix est doucePlage de valeurs : [-100, 100]
Paramètre d’effet sonore. Un seul effet peut être sélectionné à la fois. Valeurs disponibles : spacious_echo (écho d’espace ouvert), auditorium_echo (diffusion en auditorium), lofi_telephone (distorsion téléphonique), robotic (voix électronique)Valeurs disponibles : spacious_echo, auditorium_echo, lofi_telephone, robotic
Contrôle du débit binaire constant (cbr) de l’audio. Valeurs disponibles : false, true. Lorsque ce paramètre est défini sur true, l’audio est encodé avec un débit binaire constant. Remarque : ce paramètre ne prend effet que lorsque l’audio est configuré en sortie streaming et que le format audio est mp3
Paramètre contrôlant le format du résultat de sortie. Valeurs disponibles : url, hex ; valeur par défaut : hex. Ce paramètre ne prend effet que dans les scénarios non streaming. Les scénarios streaming ne prennent en charge que le retour au format hex. L’url retournée est valide pendant 24 heuresValeurs disponibles : url, hex
Volume de l’audio synthétisé. Plus la valeur est élevée, plus le volume est fort. Plage de valeurs : (0, 10], valeur par défaut : 1.0Plage de valeurs : [0, 10]
Tonalité de l’audio synthétisé. Plage de valeurs : [-12, 12], valeur par défaut : 0, où 0 correspond à la sortie avec la voix d’originePlage de valeurs : [-12, 12]
Vitesse d’élocution de l’audio synthétisé. Plus la valeur est élevée, plus la vitesse est rapide. Plage de valeurs : [0.5, 2], valeur par défaut : 1.0Plage de valeurs : [0.5, 2]
Contrôle l’émotion de la voix synthétisée. La plage du paramètre correspond aux 8 émotions suivantes : joie (happy), tristesse (sad), colère (angry), peur (fearful), dégoût (disgusted), surprise (surprised), neutre (calm), vivant (fluent), chuchotement (whisper). Le modèle associe automatiquement une émotion adaptée au texte d’entrée ; en général, il n’est pas nécessaire de la spécifier manuellementValeurs disponibles : happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper
Identifiant de la voix de l’audio synthétisé. Si vous devez définir une voix mixte, renseignez le paramètre timber_weights et laissez ce paramètre vide. Prend en charge trois types de voix : voix système, voix clonées et voix générées à partir de texte
Contrôle si les formules latex sont lues à voix haute. Par défaut : false. Ne prend en charge que le chinois. Une fois ce paramètre activé, le paramètre language_boost sera défini sur Chinese
Indique s’il faut activer la normalisation des textes chinois et anglais. Une fois activée, elle peut améliorer les performances dans les scénarios de lecture de nombres, mais augmente légèrement la latence. Valeur par défaut : false
Contrôle l’ajout d’un identifiant rythmique audio à la fin de l’audio synthétisé. Valeur par défaut : false. Ce paramètre ne prend effet que pour la synthèse non streaming
Définit si le dernier chunk contient les données audio hex concaténées. Valeur par défaut : false, ce qui signifie que le dernier chunk contient les données hex complètes de l’audio concaténé
Poids occupé par chaque voix dans l’audio synthétisé ; doit être renseigné en même temps que voice_id. La plage de valeurs disponible est [1, 100]. Jusqu’à 4 voix peuvent être mélangées. Plus la proportion d’une voix unique est élevée, plus la voix synthétisée sera similaire à cette voixPlage de valeurs : [1, 100]
Identifiant de la voix de l’audio synthétisé ; doit être renseigné en même temps que le paramètre weight. Prend en charge trois types de voix : voix système, voix clonées et voix générées à partir de texte
Contrôle l’activation du service de sous-titres. Valeur par défaut : false. Ce paramètre n’est valide que dans les scénarios de sortie non streaming et uniquement pour les modèles speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd
Activez ce paramètre pour rendre les transitions entre propositions plus naturelles. Ne prend en charge que les modèles speech-2.8-hd et speech-2.8-turbo
Définit les règles de remplacement de la transcription phonétique ou de la prononciation correspondant aux caractères ou symboles nécessitant une annotation spéciale. Dans les textes chinois, les tons sont indiqués par des chiffres : le premier ton par 1, le deuxième par 2, le troisième par 3, le quatrième par 4 et le ton neutre par 5. Exemple : [“燕少飞/(yan4)(shao3)(fei1)”, “omg/oh my god”]