Zum Hauptinhalt springen
POST
/
v3
/
async
/
minimax-speech-2.5-hd-preview
MiniMax Speech-2.5-hd-preview Asynchrone Sprachsynthese
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.5-hd-preview \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'
{
  "task_id": "<string>"
}
Diese API unterstützt die asynchrone Generierung von Text-zu-Sprache. Pro Textgenerierungsübertragung werden maximal 1 Million Zeichen unterstützt; das vollständig generierte Audioergebnis kann asynchron abgerufen werden. Unterstützt werden 100+ Systemstimmen sowie frei wählbare geklonte Stimmen; außerdem können Intonation, Sprechgeschwindigkeit, Lautstärke, Bitrate, Abtastrate und Ausgabeformat flexibel angepasst werden. Nach dem Einreichen einer Anfrage zur Sprachsynthese für lange Texte ist zu beachten, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Bitte achten Sie auf den Zeitpunkt des Downloads.
Geeignet für die Sprachgenerierung langer Texte wie ganzer Bücher; die Wartezeit in der Aufgabenwarteschlange kann relativ lang sein. Für Szenarien wie die Generierung kurzer Sätze, Sprachchats oder Online-Social-Anwendungen wird die synchrone Sprachsynthese empfohlen.

Anfrageheader

Content-Type
string
erforderlich
Enumerationswert: application/json
Authorization
string
erforderlich
Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragetext

text
string
erforderlich
Der zu synthetisierende Text, maximal 50.000 Zeichen.
voice_setting
object
erforderlich
audio_setting
object
pronunciation_dict
object
language_boost
string
Standard:"null"
Verbessert die Erkennung für angegebene weniger verbreitete Sprachen und Dialekte. Nach der Einstellung kann dies die Sprachleistung in Szenarien mit der angegebenen Sprache/dem angegebenen Dialekt verbessern. Wenn der Typ der weniger verbreiteten Sprache nicht eindeutig ist, kann “auto” gewählt werden; das Modell bestimmt dann selbstständig den Sprachtyp. Unterstützte Werte:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
voice_modify
object
Einstellungen für Stimmeffekte. Dieser Parameter unterstützt die Audioformate: mp3, wav, flac

Antwortparameter

task_id
string
erforderlich
Die task_id der asynchronen Aufgabe. Sie sollten diese task_id verwenden, um die API zum Abfragen des Aufgabenergebnisses aufzurufen und das Generierungsergebnis zu erhalten.