MiniMax Speech-2.5-hd-preview Synchrone Sprachsynthese
Audio
MiniMax Speech-2.5-hd-preview Synchrone Sprachsynthese
POST
MiniMax Speech-2.5-hd-preview Synchrone Sprachsynthese
Diese API unterstützt die synchrone Generierung von Text zu Sprache; pro Textübertragung sind maximal 10000 Zeichen möglich. Sie unterstützt 100+ Systemstimmen sowie frei auswählbare geklonte Stimmen; Anpassungen von Lautstärke, Tonhöhe, Sprechgeschwindigkeit und Ausgabeformat; proportionale Stimmmischung sowie Steuerung fester Intervallzeiten; außerdem verschiedene Audiospezifikationen und -formate, darunter mp3, pcm, flac und wav, sowie Streaming-Ausgabe.
Nach dem Absenden einer Anfrage zur Sprachsynthese langer Texte ist zu beachten, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Bitte achten Sie darauf, die Informationen rechtzeitig herunterzuladen.
Anfrageheader
Enum-Wert:
application/jsonBearer-Authentifizierungsformat: Bearer {{API Key}}.
Anfragetext
Der zu synthetisierende Text. Die Länge muss unter 10000 Zeichen liegen; Absatzwechsel werden durch Zeilenumbrüche ersetzt. (Wenn die Pausenzeit innerhalb der Sprache gesteuert werden soll, fügen Sie zwischen Zeichen <#x#> ein; x ist in Sekunden angegeben, unterstützt 0.01-99.99 mit maximal zwei Dezimalstellen.) Unterstützt benutzerdefinierte Zeitintervalle zwischen Texten, um benutzerdefinierte Pausen in der Text-zu-Sprache-Ausgabe zu erzielen. Zu beachten ist, dass das Textintervall zwischen zwei sprachlich aussprechbaren Textteilen gesetzt werden muss und nicht mehrere aufeinanderfolgende Zeitintervalle gesetzt werden dürfen.
Entweder timbre_weights oder voice_id ist erforderlich
Ob Streaming verwendet wird. Standardmäßig false, d. h. Streaming ist nicht aktiviert.
Verbessert die Erkennungsfähigkeit für angegebene weniger verbreitete Sprachen und Dialekte. Nach der Einstellung kann die Sprachleistung in Szenarien mit der angegebenen weniger verbreiteten Sprache/dem angegebenen Dialekt verbessert werden. Wenn der Typ der weniger verbreiteten Sprache nicht eindeutig ist, kann “auto” gewählt werden; das Modell bestimmt den Typ der weniger verbreiteten Sprache dann selbstständig. Folgende Werte werden unterstützt:
'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'Parameter zur Steuerung der Form des Ausgabeergebnisses. Mögliche Werte sind
url hex. Standardwert ist hex. Dieser Parameter gilt nur in nicht-streamenden Szenarien; Streaming-Szenarien unterstützen nur die Rückgabe im hex-Format. Die zurückgegebene url ist 24 Stunden gültig.Einstellungen für Stimmeffekte. Dieser Parameter unterstützt folgende Audioformate:
- Nicht-Streaming: mp3, wav, flac
- Streaming: mp3
Antwortinformationen
Das synthetisierte Audiosegment, hex-codiert und gemäß dem in der Eingabe definierten Format (
audio_setting.format) generiert (mp3/pcm/flac). Die Rückgabeform richtet sich nach der Definition von output_format; wenn stream true ist, wird nur die Rückgabe im hex-Format unterstützt.Aktueller Status des Audiostreams, wird nur zurückgegeben, wenn
stream true ist. 1 bedeutet Synthese läuft, 2 bedeutet Synthese beendet.