Zum Hauptinhalt springen
POST
/
v3
/
async
/
minimax-speech-2.6-turbo
MiniMax Speech-2.6-turbo asynchrone Sprachsynthese
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.6-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'
{
  "task_id": "<string>"
}
Diese API unterstützt die asynchrone Generierung von Text-zu-Sprache. Pro Textgenerierung werden bei der Übertragung maximal 1 Million Zeichen unterstützt; das vollständige generierte Audioergebnis kann asynchron abgerufen werden. Unterstützt über 100 Systemstimmen sowie frei wählbare geklonte Stimmen; Intonation, Sprechgeschwindigkeit, Lautstärke, Bitrate, Abtastrate und Ausgabeformat können individuell angepasst werden. Nachdem eine Anfrage zur Sprachsynthese für Langtexte übermittelt wurde, beachten Sie bitte, dass die zurückgegebene url ab dem Zeitpunkt der Rückgabe 24 Stunden gültig ist. Bitte achten Sie auf den Zeitpunkt des Downloads der Informationen.
Geeignet für die Sprachgenerierung von Langtexten wie ganzen Büchern; die Aufgabenwarteschlange kann längere Zeit in Anspruch nehmen. Für Szenarien wie Kurzsatzgenerierung, Sprachchat und Online-Social empfiehlt sich die Verwendung der synchronen Sprachsynthese.

Anfrageheader

Content-Type
string
erforderlich
Enumerationswert: application/json
Authorization
string
erforderlich
Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragetext

text
string
erforderlich
Der zu synthetisierende Text, begrenzt auf maximal 50.000 Zeichen.
voice_setting
object
erforderlich
audio_setting
object
pronunciation_dict
object
language_boost
string
Standard:"null"
Verbessert die Erkennungsfähigkeit für angegebene weniger verbreitete Sprachen und Dialekte. Nach der Festlegung kann die Sprachleistung in den entsprechenden Sprach-/Dialektszenarien verbessert werden. Wenn der Typ der weniger verbreiteten Sprache nicht eindeutig ist, kann “auto” ausgewählt werden; das Modell bestimmt den Sprachtyp dann selbstständig. Unterstützt werden folgende Werte:'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
voice_modify
object
Einstellungen für Stimmeffekte; dieser Parameter unterstützt die Audioformate: mp3, wav, flac

Antwortparameter

task_id
string
erforderlich
Die task_id der asynchronen Aufgabe. Sie sollten diese task_id verwenden, um die API zum Abfragen des Aufgabenergebnisses anzufordern und das generierte Ergebnis zu erhalten