MiniMax Speech-2.6-turbo synchrone Sprachsynthese
Audio
MiniMax Speech-2.6-turbo synchrone Sprachsynthese
POST
MiniMax Speech-2.6-turbo synchrone Sprachsynthese
Diese API unterstützt die synchrone Generierung von Text-zu-Sprache; die maximale Textlänge pro Übertragung beträgt 10000 Zeichen. Sie unterstützt 100+ Systemstimmen sowie die freie Auswahl geklonter Stimmen; Anpassungen von Lautstärke, Tonhöhe, Sprechgeschwindigkeit und Ausgabeformat; proportionales Mischen von Stimmen und die Steuerung fester Intervalle; außerdem verschiedene Audiospezifikationen und -formate, darunter: mp3, pcm, flac, wav, sowie Streaming-Ausgabe.
Nach dem Einreichen einer Anfrage zur Sprachsynthese für längere Texte ist zu beachten, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Bitte achten Sie auf den Zeitpunkt des Herunterladens der Informationen.
Request-Header
Enumerationswert:
application/jsonBearer-Authentifizierungsformat: Bearer {{API Key}}.
Request-Body
Der zu synthetisierende Text. Die Länge muss unter 10000 Zeichen liegen; Absatzwechsel werden durch Zeilenumbrüche ersetzt. (Wenn Sie Pausen innerhalb der Sprache steuern möchten, fügen Sie zwischen Zeichen <#x#> ein; x ist in Sekunden angegeben, unterstützt werden 0.01-99.99 mit maximal zwei Dezimalstellen.) Unterstützt benutzerdefinierte Zeitintervalle zwischen Textabschnitten, um benutzerdefinierte Sprechpausen zu realisieren. Beachten Sie, dass das Textintervall zwischen zwei aussprechbaren Textabschnitten gesetzt werden muss und nicht mehrere aufeinanderfolgende Zeitintervalle gesetzt werden dürfen.
Entweder voice_id oder timbre_weights ist erforderlich
Ob Streaming verwendet wird. Standard ist false, d. h. Streaming ist nicht aktiviert.
Verbessert die Erkennung bestimmter kleinerer Sprachen und Dialekte. Nach der Einstellung kann die Sprachleistung in Szenarien mit der angegebenen kleineren Sprache/dem angegebenen Dialekt verbessert werden. Wenn der Typ der kleineren Sprache nicht eindeutig ist, kann “auto” gewählt werden; das Modell bestimmt dann den Typ der kleineren Sprache selbstständig. Unterstützt die folgenden Werte:
'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'Parameter zur Steuerung der Form des Ausgabeergebnisses. Mögliche Werte sind
url hex. Standardwert ist hex. Dieser Parameter ist nur in nicht gestreamten Szenarien wirksam; Streaming-Szenarien unterstützen nur die Rückgabe in hex-Form. Die zurückgegebene url ist 24 Stunden gültig.Einstellungen für Stimmeffekte. Dieser Parameter unterstützt die folgenden Audioformate:
- Nicht gestreamt: mp3, wav, flac
- Gestreamt: mp3
Antwortinformationen
Das synthetisierte Audiosegment, hex-codiert und gemäß dem in der Eingabe definierten Format (
audio_setting.format) generiert (mp3/pcm/flac). Die Rückgabeform richtet sich nach der Definition von output_format; wenn stream true ist, wird nur die Rückgabe in hex-Form unterstützt.Aktueller Status des Audiostreams, wird nur zurückgegeben, wenn
stream true ist. 1 bedeutet Synthese läuft, 2 bedeutet Synthese beendet.