GLM-Sprachsynthese
Audio
GLM-Sprachsynthese
POST
GLM-Sprachsynthese
Verwenden Sie GLM-TTS, um Text in natürlich klingende Sprache umzuwandeln, mit Unterstützung für verschiedene Stimmen, Emotionssteuerung und Anpassung der Intonation.
Anfrageheader
Enumerationswert:
application/jsonBearer-Authentifizierungsformat: Bearer {{API Key}}。
Anfragetext
Der Text, der in Sprache umgewandelt werden sollLängenbeschränkung: 0 - 1024
Sprechgeschwindigkeit, Standardwert 1.0, Wertebereich [0.5, 2]Wertebereich: [0.5, 2]
Die Stimme, die beim Generieren des Audios verwendet wird. Es werden zwei Arten unterstützt: Systemstimmen und geklonte Stimmen. Zu den Systemstimmen gehören: tongtong (彤彤, Standardstimme), chuichui (锤锤), xiaochen (小陈), jam (动动动物圈 jam-Stimme), kazi (动动动物圈 kazi-Stimme), douji (动动动物圈 douji-Stimme), luodo (动动动物圈 luodo-Stimme)
Lautstärke, Standardwert 1.0, Wertebereich (0, 10]Wertebereich: [0, 10]
Audio-Ausgabeformat; standardmäßig wird eine Datei im pcm-Format zurückgegebenOptionale Werte:
wav, pcmSteuert, ob beim Generieren von Audio durch KI ein Wasserzeichen hinzugefügt wird. true: Standardmäßig werden explizite KI-Wasserzeichen und implizite digitale Wasserzeichen aktiviert, um den Richtlinienanforderungen zu entsprechen. false: Deaktiviert alle Wasserzeichen; dies ist nur für Benutzer wirksam, die den Vorgang zur Wasserzeichenentfernung abgeschlossen haben.
Antwortinformationen
Bei erfolgreicher Geschäftsverarbeitung wird empfohlen, die Abtastrate auf 24000 zu setzen Format:binary