Diese API unterstützt die asynchrone Generierung von Sprache auf Basis von Text-to-Speech. Pro Textgenerierungsübertragung werden maximal 1 Million Zeichen unterstützt; das vollständige generierte Audioergebnis kann asynchron abgerufen werden. Unterstützt werden über 100 Systemstimmen sowie frei wählbare geklonte Stimmen; Intonation, Sprechgeschwindigkeit, Lautstärke, Bitrate, Abtastrate und Ausgabeformat können individuell angepasst werden.Nachdem Sie eine Anfrage zur Sprachsynthese langer Texte eingereicht haben, beachten Sie bitte, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Achten Sie daher auf den Zeitpunkt des Herunterladens der Informationen.
Geeignet für die Sprachgenerierung langer Texte wie ganzer Bücher; die Wartezeit in der Aufgabenwarteschlange kann relativ lang sein. Für Szenarien wie die Generierung kurzer Sätze, Sprachchats und Online-Social-Anwendungen wird die Verwendung des synchronen Aufrufs der Sprachsynthese empfohlen.
Bereich [0.5,2], Standardwert ist 1.0Die Sprechgeschwindigkeit der generierten Stimme. Optional; je größer der Wert, desto schneller die Sprechgeschwindigkeit.
Bereich [-12,12], Standardwert ist 0Die Tonhöhe/Intonation der generierten Stimme. Optional (0 bedeutet Ausgabe in der Originalstimme; der Wert muss eine Ganzzahl sein).
Dieser Parameter unterstützt die Normalisierung englischer Texte und kann die Leistung in Szenarien zum Vorlesen von Zahlen verbessern, erhöht jedoch geringfügig die Latenz. Wenn nicht angegeben, ist der Standardwert false.
Bereich 【32000,64000,128000,256000】Die Bitrate der generierten Stimme. Optional, Standardwert ist 128000. Dieser Parameter wirkt sich nur auf Audio im mp3-Format aus.
Ersetzt Texte, Symbole und die entsprechende Aussprache, die speziell markiert werden müssen.Aussprache ersetzen (Ton anpassen/Aussprache anderer Zeichen ersetzen), Format wie folgt:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)","omg/oh my god"]Töne werden durch Zahlen ersetzt: erster Ton (Yinping) ist 1, zweiter Ton (Yangping) ist 2, dritter Ton (Shangsheng) ist 3, vierter Ton (Qusheng) ist 4, neutraler Ton ist 5.
Verbessert die Erkennungsfähigkeit für angegebene weniger verbreitete Sprachen und Dialekte. Nach der Einstellung kann die Sprachleistung in Szenarien mit der angegebenen weniger verbreiteten Sprache/dem angegebenen Dialekt verbessert werden. Wenn der Typ der weniger verbreiteten Sprache nicht eindeutig ist, kann “auto” gewählt werden; das Modell bestimmt dann selbstständig den Typ der weniger verbreiteten Sprache. Unterstützte Werte:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
Tonhöhenanpassung (tief/hell), Bereich [-100,100]; je näher der Wert an -100 liegt, desto tiefer ist die Stimme; je näher an 100, desto heller ist die Stimme
Intensitätsanpassung (kraftvoll/sanft), Bereich [-100,100]; je näher der Wert an -100 liegt, desto kräftiger ist die Stimme; je näher an 100, desto weicher ist die Stimme
Klangfarbenanpassung (magnetisch/klar), Bereich [-100,100]; je näher der Wert an -100 liegt, desto voller ist die Stimme; je näher der Wert an 100 liegt, desto klarer ist die Stimme
Die task_id der asynchronen Aufgabe. Sie sollten diese task_id verwenden, um die API zum Abfragen des Aufgabenergebnisses anzufordern und das Generierungsergebnis zu erhalten