Zum Hauptinhalt springen
POST
/
v3
/
async
/
minimax-speech-02-turbo
MiniMax Speech-02-turbo asynchrone Sprachsynthese
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-02-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'
{
  "task_id": "<string>"
}
Diese API unterstützt die asynchrone Generierung von Text-zu-Sprache. Pro Textgenerierungsübertragung werden maximal 1 Million Zeichen unterstützt; das vollständig generierte Audioergebnis kann asynchron abgerufen werden. Unterstützt 100+ Systemstimmen sowie frei wählbare geklonte Stimmen; Intonation, Sprechgeschwindigkeit, Lautstärke, Bitrate, Abtastrate und Ausgabeformat können individuell angepasst werden. Nach dem Einreichen einer Anfrage zur Sprachsynthese langer Texte ist zu beachten, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Achten Sie daher auf den Zeitpunkt des Herunterladens der Informationen.
Geeignet für die Sprachgenerierung langer Texte wie kompletter Bücher. Die Wartezeit in der Aufgabenwarteschlange kann länger sein. Für Szenarien wie Kurzsatzgenerierung, Sprachchat und Online-Socializing wird die Verwendung der synchronen Sprachsynthese empfohlen.

Request-Header

Content-Type
string
erforderlich
Enumerationswert: application/json
Authorization
string
erforderlich
Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Request-Body

text
string
erforderlich
Der zu synthetisierende Text; maximale Länge 50.000 Zeichen.
voice_setting
object
erforderlich
audio_setting
object
pronunciation_dict
object
language_boost
string
Standard:"null"
Verbessert die Erkennungsfähigkeit für angegebene weniger verbreitete Sprachen und Dialekte. Nach der Einstellung kann die Sprachleistung in Szenarien mit der angegebenen weniger verbreiteten Sprache/dem Dialekt verbessert werden. Wenn der Typ der weniger verbreiteten Sprache nicht eindeutig ist, kann “auto” gewählt werden; das Modell bestimmt dann selbstständig den Typ der weniger verbreiteten Sprache. Unterstützte Werte:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
voice_modify
object
Einstellungen für Stimmeffekte; von diesem Parameter unterstützte Audioformate: mp3, wav, flac

Parameter der Antwortinformationen

task_id
string
erforderlich
Die task_id der asynchronen Aufgabe. Sie sollten diese task_id verwenden, um die API zum Abfragen des Aufgabenergebnisses anzufordern und das generierte Ergebnis zu erhalten.