MiniMax Speech-2.5-turbo-preview synchrone Sprachsynthese
Audio
MiniMax Speech-2.5-turbo-preview synchrone Sprachsynthese
POST
MiniMax Speech-2.5-turbo-preview synchrone Sprachsynthese
Diese API unterstützt die synchrone Generierung von Text-zu-Sprache; pro Textübertragung sind maximal 10000 Zeichen möglich. Sie unterstützt über 100 Systemstimmen sowie frei wählbare geklonte Stimmen; Anpassungen von Lautstärke, Tonlage, Sprechgeschwindigkeit und Ausgabeformat; proportionale Stimm-Mischung und Steuerung fester Zeitintervalle; außerdem mehrere Audiospezifikationen und -formate, darunter: mp3, pcm, flac, wav, sowie Streaming-Ausgabe.
Nach dem Einreichen einer Anfrage zur Sprachsynthese für lange Texte ist zu beachten, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Bitte achten Sie darauf, die Informationen rechtzeitig herunterzuladen.
Anfrageheader
Enumerationswert:
application/jsonBearer-Authentifizierungsformat: Bearer {{API Key}}.
Anfragetext
Der zu synthetisierende Text. Die Länge muss unter 10000 Zeichen liegen; Absatzwechsel werden durch Zeilenumbrüche ersetzt. (Wenn Sie die Pausenzeit in der Sprache steuern möchten, fügen Sie zwischen Zeichen <#x#> ein; die Einheit von x ist Sekunden, unterstützt werden 0.01-99.99 mit maximal zwei Dezimalstellen.) Unterstützt benutzerdefinierte Sprach-Zeitintervalle zwischen Texten, um benutzerdefinierte Pausen im gesprochenen Text zu realisieren. Zu beachten ist, dass das Textintervall zwischen zwei sprechbaren Textabschnitten gesetzt werden muss und nicht mehrere aufeinanderfolgende Zeitintervalle gesetzt werden dürfen.
Entweder
timbre_weights oder voice_id ist erforderlichOb Streaming verwendet wird. Standard ist false, d. h. Streaming ist nicht aktiviert.
Verbessert die Erkennungsfähigkeit für angegebene kleinere Sprachen und Dialekte. Nach der Einstellung kann die Sprachleistung in Szenarien mit den angegebenen kleineren Sprachen/Dialekten verbessert werden. Wenn der Typ der kleineren Sprache nicht eindeutig ist, kann „auto“ ausgewählt werden; das Modell bestimmt den Typ der kleineren Sprache dann selbstständig. Unterstützte Werte:
'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'Parameter zur Steuerung der Form des Ausgabeergebnisses. Optionale Werte sind
url hex. Standardwert ist hex. Dieser Parameter ist nur in nicht-streamenden Szenarien wirksam; in Streaming-Szenarien wird nur die Rückgabe in Hex-Form unterstützt. Die zurückgegebene url ist 24 Stunden gültig.Einstellungen für Stimmeffekte. Dieser Parameter unterstützt die folgenden Audioformate:
- Nicht-Streaming: mp3, wav, flac
- Streaming: mp3
Antwortinformationen
Das synthetisierte Audiosegment, hex-kodiert und gemäß dem in der Eingabe definierten Format (
audio_setting.format) generiert (mp3/pcm/flac). Die Rückgabeform richtet sich nach der Definition von output_format; wenn stream true ist, wird nur die Rückgabe in Hex-Form unterstützt.Aktueller Status des Audiostreams, wird nur zurückgegeben, wenn
stream true ist. 1 bedeutet Synthese läuft, 2 bedeutet Synthese beendet.