MiniMax Speech-02-turbo synchrone Sprachsynthese
Audio
MiniMax Speech-02-turbo synchrone Sprachsynthese
POST
MiniMax Speech-02-turbo synchrone Sprachsynthese
Diese API unterstützt die synchrone Generierung von Text-zu-Sprache; pro Textübertragung sind maximal 10000 Zeichen möglich. Sie unterstützt die freie Auswahl aus über 100 Systemstimmen sowie geklonten Stimmen; Anpassungen von Lautstärke, Tonlage, Sprechgeschwindigkeit und Ausgabeformat; proportionale Stimmmischung und Steuerung fester Zeitintervalle; mehrere Audiospezifikationen und -formate, darunter: mp3, pcm, flac, wav, sowie Streaming-Ausgabe.
Nach dem Einreichen einer Anfrage zur Sprachsynthese langer Texte ist zu beachten, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Bitte achten Sie auf den Zeitpunkt des Herunterladens.
Anfrageheader
Enumerationswert:
application/jsonBearer-Authentifizierungsformat: Bearer {{API Key}}.
Anfragetext
Der zu synthetisierende Text, mit einer Längenbegrenzung von weniger als 10000 Zeichen. Absatzwechsel werden durch Zeilenumbrüche ersetzt. (Wenn Sie die Pausenzeit in der Sprache steuern möchten, fügen Sie zwischen Zeichen <#x#> ein; x ist in Sekunden angegeben, unterstützt 0.01-99.99 mit maximal zwei Dezimalstellen). Unterstützt benutzerdefinierte Sprachintervalle zwischen Textabschnitten, um benutzerdefinierte Pausen in der Sprachausgabe zu erzielen. Beachten Sie, dass das Textintervall zwischen zwei aussprechbaren Textsegmenten gesetzt werden muss und nicht mehrere aufeinanderfolgende Zeitintervalle gesetzt werden dürfen.
Entweder timbre_weights oder voice_id ist erforderlich
Ob Streaming verwendet wird. Standard ist false, d. h. Streaming ist nicht aktiviert.
Verbessert die Erkennungsfähigkeit für bestimmte weniger verbreitete Sprachen und Dialekte. Nach der Einstellung kann die Sprachleistung in Szenarien mit der angegebenen Sprache/dem angegebenen Dialekt verbessert werden. Wenn der Typ der weniger verbreiteten Sprache nicht eindeutig ist, kann “auto” gewählt werden; das Modell bestimmt den Sprachtyp selbstständig. Unterstützte Werte:
'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'Parameter zur Steuerung der Form des Ausgabeergebnisses. Optionale Werte sind
url hex. Standardwert ist hex. Dieser Parameter gilt nur in nicht-streamenden Szenarien; in Streaming-Szenarien wird nur die Rückgabe im hex-Format unterstützt. Die zurückgegebene url ist 24 Stunden gültig.Einstellungen für Stimmeffekte; dieser Parameter unterstützt die folgenden Audioformate:
- Nicht-Streaming: mp3, wav, flac
- Streaming: mp3
Antwortinformationen
Das synthetisierte Audiosegment, hex-kodiert und gemäß dem in der Eingabe definierten Format (
audio_setting.format) generiert (mp3/pcm/flac). Die Rückgabeform richtet sich nach der Definition von output_format; wenn stream true ist, wird nur die Rückgabe im hex-Format unterstützt.Der aktuelle Status des Audiostreams, wird nur zurückgegeben, wenn
stream true ist. 1 bedeutet, dass die Synthese läuft, 2 bedeutet, dass die Synthese abgeschlossen ist.