Synthèse vocale GLM
Audio
Synthèse vocale GLM
POST
Synthèse vocale GLM
Utilisez GLM-TTS pour convertir du texte en parole naturelle, avec prise en charge de plusieurs voix, du contrôle des émotions et de l’ajustement de l’intonation.
En-têtes de requête
Valeurs énumérées :
application/jsonFormat d’authentification Bearer : Bearer {{API Key}}.
Corps de la requête
Le texte à convertir en paroleLimite de longueur : 0 - 1024
Vitesse de parole, 1.0 par défaut, plage de valeurs [0.5, 2]Plage de valeurs : [0.5, 2]
Timbre vocal utilisé pour générer l’audio, prenant en charge deux types : les voix système et les voix clonées. Les voix système incluent : tongtong (Tongtong, voix par défaut), chuichui (Chuichui), xiaochen (Xiaochen), jam (voix jam de 动动动物圈), kazi (voix kazi de 动动动物圈), douji (voix douji de 动动动物圈), luodo (voix luodo de 动动动物圈)
Volume, 1.0 par défaut, plage de valeurs (0, 10]Plage de valeurs : [0, 10]
Format de sortie audio ; par défaut, un fichier au format pcm est retournéValeurs possibles :
wav, pcmContrôle l’ajout ou non d’un filigrane lorsque l’IA génère l’audio. true : active par défaut le filigrane explicite généré par l’IA ainsi que le filigrane numérique implicite, conformément aux exigences réglementaires. false : désactive tous les filigranes, uniquement pour les utilisateurs ayant effectué l’action de suppression du filigrane.
Informations de réponse
Traitement métier réussi ; il est recommandé de définir le taux d’échantillonnage sur 24000 Format :binary