Zum Hauptinhalt springen
POST
/
v3
/
async
/
minimax-speech-2.5-turbo-preview
Asynchrone Sprachsynthese mit MiniMax Speech-2.5-turbo-preview
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.5-turbo-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'
{
  "task_id": "<string>"
}
Diese API unterstützt die asynchrone Generierung von Text-to-Speech. Pro Textgenerierungsübertragung werden maximal 1 Million Zeichen unterstützt; das vollständig generierte Audioergebnis kann asynchron abgerufen werden. Unterstützt werden über 100 Systemstimmen sowie individuell auswählbare geklonte Stimmen; Intonation, Sprechgeschwindigkeit, Lautstärke, Bitrate, Abtastrate und Ausgabeformat können frei angepasst werden. Nach dem Einreichen einer Sprachsyntheseanforderung für langen Text ist zu beachten, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Achten Sie darauf, die Informationen rechtzeitig herunterzuladen.
Geeignet für die Sprachgenerierung langer Texte wie ganzer Bücher; die Aufgabenwarteschlange kann längere Zeit in Anspruch nehmen. Für Szenarien wie die Generierung kurzer Sätze, Sprachchat oder Online-Social-Anwendungen wird empfohlen, den synchronen Aufruf der Sprachsynthese zu verwenden.

Anforderungsheader

Content-Type
string
erforderlich
Enumerationswert: application/json
Authorization
string
erforderlich
Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anforderungstext

text
string
erforderlich
Der zu synthetisierende Text, maximal 50.000 Zeichen.
voice_setting
object
erforderlich
audio_setting
object
pronunciation_dict
object
language_boost
string
Standard:"null"
Verbessert die Erkennungsfähigkeit für angegebene weniger verbreitete Sprachen und Dialekte. Nach der Einstellung kann die Sprachleistung in Szenarien mit der angegebenen weniger verbreiteten Sprache/dem angegebenen Dialekt verbessert werden. Wenn der Typ der weniger verbreiteten Sprache nicht eindeutig ist, kann “auto” gewählt werden; das Modell bestimmt den Typ der weniger verbreiteten Sprache dann selbstständig. Unterstützte Werte:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
voice_modify
object
Einstellungen für Stimmeffekte. Dieser Parameter unterstützt die Audioformate: mp3, wav, flac

Parameter der Antwortinformationen

task_id
string
erforderlich
Die task_id der asynchronen Aufgabe. Sie sollten diese task_id verwenden, um die API zum Abfragen des Aufgabenergebnisses aufzurufen und das Generierungsergebnis abzurufen.