Diese API unterstützt die asynchrone Generierung von Text-zu-Sprache. Pro Textgenerierung werden bei der Übertragung maximal 1 Million Zeichen unterstützt; das vollständige generierte Audioergebnis kann asynchron abgerufen werden. Unterstützt über 100 Systemstimmen sowie frei wählbare geklonte Stimmen; Intonation, Sprechgeschwindigkeit, Lautstärke, Bitrate, Abtastrate und Ausgabeformat können individuell angepasst werden.Nachdem eine Anfrage zur Sprachsynthese für Langtexte übermittelt wurde, beachten Sie bitte, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Bitte achten Sie auf den Zeitpunkt des Downloads der Informationen.
Geeignet für die Sprachgenerierung von Langtexten wie ganzen Büchern; die Aufgabenwarteschlange kann längere Zeit in Anspruch nehmen. Für Szenarien wie Kurzsatzgenerierung, Sprachchat und Online-Social empfiehlt sich die Verwendung der synchronen Sprachsynthese.
Bereich [0.5,2], Standardwert ist 1.0Die Sprechgeschwindigkeit der generierten Stimme. Optional; je größer der Wert, desto schneller die Sprechgeschwindigkeit.
Bereich [-12,12], Standardwert ist 0Die Intonation der generierten Stimme. Optional (0 gibt die ursprüngliche Stimme aus; der Wert muss eine Ganzzahl sein).
Dieser Parameter unterstützt die Normalisierung englischer Texte und kann die Leistung in Szenarien zum Vorlesen von Zahlen verbessern, erhöht jedoch die Latenz geringfügig. Wenn er nicht angegeben wird, ist der Standardwert false.
Bereich【32000,64000,128000,256000】Die Bitrate der generierten Stimme. Optional, Standardwert ist 128000. Dieser Parameter gilt nur für Audio im mp3-Format.
Ersetzt Texte, Symbole und die entsprechenden phonetischen Notationen, die eine spezielle Markierung erfordern.Aussprache ersetzen (Ton anpassen/Aussprache anderer Zeichen ersetzen), Format wie folgt:["燕少飞/(yan4)(shao3)(fei1)","达菲/(da2)(fei1)","omg/oh my god"]Töne werden durch Zahlen ersetzt: erster Ton (Yinping) ist 1, zweiter Ton (Yangping) ist 2, dritter Ton (Shangsheng) ist 3, vierter Ton (Qusheng) ist 4, neutraler Ton ist 5.
Verbessert die Erkennungsfähigkeit für angegebene weniger verbreitete Sprachen und Dialekte. Nach der Festlegung kann die Sprachleistung in den entsprechenden Sprach-/Dialektszenarien verbessert werden. Wenn der Typ der weniger verbreiteten Sprache nicht eindeutig ist, kann “auto” ausgewählt werden; das Modell bestimmt den Sprachtyp dann selbstständig. Unterstützt werden folgende Werte:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
Tonhöhenanpassung (tief/hell), Bereich [-100,100]; je näher der Wert an -100 liegt, desto tiefer ist die Stimme; je näher an 100, desto heller ist die Stimme
Intensitätsanpassung (kraftvoll/sanft), Bereich [-100,100]; je näher der Wert an -100 liegt, desto kräftiger ist die Stimme; je näher an 100, desto sanfter ist die Stimme
Klangfarbenanpassung (resonant/klar), Bereich [-100,100]; je näher der Wert an -100 liegt, desto voller ist die Stimme; je näher der Wert an 100 liegt, desto klarer ist die Stimme
Die task_id der asynchronen Aufgabe. Sie sollten diese task_id verwenden, um die API zum Abfragen des Aufgabenergebnisses anzufordern und das generierte Ergebnis zu erhalten