MiniMax Speech-02-hd synchrone Sprachsynthese
Audio
MiniMax Speech-02-hd synchrone Sprachsynthese
POST
MiniMax Speech-02-hd synchrone Sprachsynthese
Diese API unterstützt die synchrone Generierung von Text-to-Speech; pro Textübertragung sind maximal 10000 Zeichen möglich. Sie unterstützt über 100 Systemstimmen sowie die freie Auswahl geklonter Stimmen; Anpassungen von Lautstärke, Tonhöhe, Sprechgeschwindigkeit und Ausgabeformat; proportionales Mischen von Stimmen sowie die Steuerung fester Zeitintervalle; außerdem verschiedene Audiospezifikationen und -formate, darunter mp3, pcm, flac und wav, sowie Streaming-Ausgabe.
Nach dem Absenden einer Anfrage zur Sprachsynthese langer Texte ist zu beachten, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Bitte achten Sie darauf, die Informationen rechtzeitig herunterzuladen.
Anfrage-Header
Enumerationswert:
application/jsonBearer-Authentifizierungsformat: Bearer {{API Key}}.
Anfragebody
Der zu synthetisierende Text. Die Länge muss weniger als 10000 Zeichen betragen; Absatzwechsel werden durch Zeilenumbrüche ersetzt. (Wenn Sie Pausen in der Sprache steuern möchten, fügen Sie zwischen Zeichen <#x#> ein; x ist in Sekunden angegeben, unterstützt 0.01-99.99 mit maximal zwei Dezimalstellen.) Benutzerdefinierte zeitliche Abstände zwischen Textabschnitten werden unterstützt, um individuelle Pausenzeiten in der Sprachausgabe zu erzielen. Zu beachten ist, dass die Textintervallzeit zwischen zwei sprechbaren Textteilen gesetzt werden muss und nicht mehrere aufeinanderfolgende Zeitintervalle gesetzt werden dürfen.
Entweder timbre_weights oder voice_id ist erforderlich
Gibt an, ob Streaming verwendet wird. Standardwert false, d. h. Streaming ist nicht aktiviert.
Verbessert die Erkennungsfähigkeit für angegebene Minderheitensprachen und Dialekte. Nach der Einstellung kann die Sprachleistung in Szenarien mit der angegebenen Minderheitensprache/dem angegebenen Dialekt verbessert werden. Wenn der Typ der Minderheitensprache nicht klar ist, kann “auto” gewählt werden; das Modell erkennt den Typ der Minderheitensprache dann selbstständig. Unterstützte Werte:
'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'Parameter zur Steuerung der Form des Ausgabeergebnisses. Mögliche Werte sind
url hex. Standardwert ist hex. Dieser Parameter ist nur in Nicht-Streaming-Szenarien wirksam; in Streaming-Szenarien wird nur die Rückgabe in hex-Form unterstützt. Die zurückgegebene url ist 24 Stunden gültig.Einstellungen für Stimmeffekte. Dieser Parameter unterstützt die folgenden Audioformate:
- Nicht-Streaming: mp3, wav, flac
- Streaming: mp3
Antwortinformationen
Das synthetisierte Audiosegment, hex-codiert, generiert gemäß dem im Eingabewert definierten Format (
audio_setting.format) (mp3/pcm/flac). Die Rückgabeform richtet sich nach der Definition von output_format; wenn stream true ist, wird nur die Rückgabeform hex unterstützt.Der aktuelle Status des Audiostreams, wird nur zurückgegeben, wenn
stream true ist. 1 bedeutet Synthese läuft, 2 bedeutet Synthese abgeschlossen.