Zum Hauptinhalt springen
POST
/
v3
/
async
/
minimax-speech-2.8-hd
MiniMax Speech 2.8 HD – Asynchrone Sprachsynthese
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
{
  "file_id": 123,
  "task_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "task_token": "<string>",
  "usage_characters": 123
}
Verwenden Sie diese Schnittstelle, um eine asynchrone Sprachsynthese-Aufgabe zu erstellen. Text- oder Dateieingaben werden unterstützt; die Textlänge ist auf maximal 50.000 Zeichen begrenzt, Dateien auf maximal 100.000 Zeichen.
Dies ist eine asynchrone API und gibt nur die task_id der asynchronen Aufgabe zurück. Verwenden Sie diese task_id, um die API zum Abfragen des Aufgabenergebnisses aufzurufen und das generierte Ergebnis abzurufen.

Anfrageheader

Content-Type
string
erforderlich
Enumerationswert: application/json
Authorization
string
erforderlich
Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragetext

text
string
Der Text, aus dem Audio synthetisiert werden soll; maximal 50.000 Zeichen. Entweder text oder text_file_id ist erforderlich.

• Interjektions-Tags: Nur wenn das Modell speech-2.8-hd oder speech-2.8-turbo ausgewählt ist, wird das Einfügen von Interjektions-Tags in den Text unterstützt. Unterstützte Interjektionen: (laughs) (Lachen), (chuckle) (Kichern), (coughs) (Husten), (clear-throat) (Räuspern), (groans) (Stöhnen), (breath) (normales Atmen), (pant) (Hecheln), (inhale) (Einatmen), (exhale) (Ausatmen), (gasps) (nach Luft schnappen), (sniffs) (Schniefen), (sighs) (Seufzen), (snorts) (Schnauben), (burps) (Rülpsen), (lip-smacking) (Schmatzen), (humming) (Summen), (hissing) (Zischen), (emm) (ähm), (whistles) (Pfeifen), (sneezes) (Niesen), (crying) (Schluchzen), (applause) (Applaus)
text_file_id
integer
Die ID der Textdatei, aus der Audio synthetisiert werden soll. Die Länge einer einzelnen Datei muss unter 100.000 Zeichen liegen. Unterstützte Dateiformate: txt, zip. Entweder text oder text_file_id ist erforderlich; nach der Übergabe wird das Format automatisch geprüft.
txt-Datei: Längenbegrenzung <100000 Zeichen. Unterstützt die Verwendung von &lt;#x#&gt; zur Markierung benutzerdefinierter Pausen. x ist die Pausendauer (Einheit: Sekunden) im Bereich [0.01, 99.99] mit maximal zwei Dezimalstellen. Beachten Sie, dass Pausen zwischen zwei aussprechbaren Textabschnitten gesetzt werden müssen; mehrere Pausenmarkierungen dürfen nicht direkt hintereinander verwendet werden.
zip-Datei:
• Das Archiv muss txt- oder json-Dateien desselben Formats enthalten.
• json-Dateiformat: Unterstützt die drei Felder [title, content, extra], die jeweils Titel, Haupttext und Zusatzinformationen darstellen. Wenn alle drei Felder vorhanden sind, werden 3 Ergebnisgruppen mit insgesamt 9 Dateien erzeugt und einheitlich in einem Ordner abgelegt. Wenn ein Feld nicht vorhanden ist oder der Inhalt leer ist, wird für dieses Feld kein entsprechendes Ergebnis generiert.
voice_modify
object
audio_setting
object
voice_setting
object
erforderlich
aigc_watermark
boolean
Standard:false
Steuert, ob am Ende des synthetisierten Audios eine Audio-Rhythmuskennung hinzugefügt wird. Standardwert ist False. Dieser Parameter wirkt nur bei nicht-streamender Synthese.
language_boost
string
Gibt an, ob die Erkennungsfähigkeit für bestimmte weniger verbreitete Sprachen und Dialekte verbessert werden soll. Standardwert ist null; kann auf auto gesetzt werden, damit das Modell selbstständig entscheidet.Zulässige Werte: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
continuous_sound
boolean
Standard:false
Aktivieren Sie diesen Parameter, damit Übergänge zwischen Teilsätzen natürlicher wirken. Unterstützt nur die Modelle speech-2.8-hd und speech-2.8-turbo.
pronunciation_dict
object

Antwortinformationen

file_id
integer
Die ID der entsprechenden Audiodatei, die nach erfolgreicher Erstellung der Aufgabe zurückgegeben wird.

• Nachdem die Aufgabe abgeschlossen ist, kann sie über file_id abgefragt werden. Bei einem Anfragefehler wird dieses Feld nicht zurückgegeben.
Hinweis: Die zurückgegebene Download-URL ist ab ihrer Generierung 9 Stunden (32400 Sekunden) lang gültig. Nach Ablauf wird die Datei ungültig, und die generierten Informationen gehen verloren. Achten Sie daher auf den Zeitpunkt der Download-Informationen.
task_id
string
Verwenden Sie task_id, um die API zum Abfragen des Aufgabenergebnisses aufzurufen und die generierte Ausgabe abzurufen.
base_resp
object
task_token
string
Schlüsselinfo, die zum Abschließen der aktuellen Aufgabe verwendet wurde
usage_characters
integer
Anzahl der abrechnungsrelevanten Zeichen