Diese API unterstützt die asynchrone Generierung von Text-to-Speech. Pro Textgenerierungsübertragung werden maximal 1 Million Zeichen unterstützt; das vollständig generierte Audioergebnis kann asynchron abgerufen werden. Unterstützt werden über 100 Systemstimmen sowie individuell auswählbare geklonte Stimmen; Intonation, Sprechgeschwindigkeit, Lautstärke, Bitrate, Abtastrate und Ausgabeformat können frei angepasst werden.Nach dem Einreichen einer Sprachsyntheseanforderung für langen Text ist zu beachten, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Achten Sie darauf, die Informationen rechtzeitig herunterzuladen.
Geeignet für die Sprachgenerierung langer Texte wie ganzer Bücher; die Aufgabenwarteschlange kann längere Zeit in Anspruch nehmen. Für Szenarien wie die Generierung kurzer Sätze, Sprachchat oder Online-Social-Anwendungen wird empfohlen, den synchronen Aufruf der Sprachsynthese zu verwenden.
Bereich [0.5,2], Standardwert ist 1.0Die Sprechgeschwindigkeit der generierten Stimme. Optional; je größer der Wert, desto schneller die Sprechgeschwindigkeit.
Bereich [-12,12], Standardwert ist 0Die Intonation der generierten Stimme. Optional; (0 gibt die Originalstimme aus, der Wert muss eine Ganzzahl sein).
Dieser Parameter unterstützt die Normalisierung englischer Texte und kann die Leistung in Szenarien zum Vorlesen von Zahlen verbessern, erhöht jedoch geringfügig die Latenz. Wenn nicht angegeben, ist der Standardwert false.
Bereich【32000,64000,128000,256000】Die Bitrate der generierten Stimme. Optional, Standardwert ist 128000. Dieser Parameter gilt nur für Audio im mp3-Format.
Ersetzen von Text, Symbolen und zugehörigen Lautschriften, die speziell markiert werden müssen.Aussprache ersetzen (Ton anpassen/Aussprache durch andere Zeichen ersetzen), Format wie folgt:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)","omg/oh my god"]Töne werden durch Zahlen ersetzt: erster Ton (Yinping) ist 1, zweiter Ton (Yangping) ist 2, dritter Ton (fallend-steigend) ist 3, vierter Ton (fallend) ist 4, der neutrale Ton ist 5.
Verbessert die Erkennungsfähigkeit für angegebene weniger verbreitete Sprachen und Dialekte. Nach der Einstellung kann die Sprachleistung in Szenarien mit der angegebenen weniger verbreiteten Sprache/dem angegebenen Dialekt verbessert werden. Wenn der Typ der weniger verbreiteten Sprache nicht eindeutig ist, kann “auto” gewählt werden; das Modell bestimmt den Typ der weniger verbreiteten Sprache dann selbstständig. Unterstützte Werte:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
Tonhöhenanpassung (tief/hell), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto tiefer klingt die Stimme; je näher an 100, desto heller klingt die Stimme.
Intensitätsanpassung (kraftvoll/sanft), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto kraftvoller klingt die Stimme; je näher an 100, desto sanfter klingt die Stimme.
Klangfarbenanpassung (magnetisch/klar), Bereich [-100,100]. Je näher der Wert an -100 liegt, desto voller klingt die Stimme; je näher der Wert an 100 liegt, desto klarer klingt die Stimme.
Die task_id der asynchronen Aufgabe. Sie sollten diese task_id verwenden, um die API zum Abfragen des Aufgabenergebnisses aufzurufen und das Generierungsergebnis abzurufen.