Zum Hauptinhalt springen
POST
/
v3
/
async
/
minimax-speech-2.8-turbo
MiniMax Speech 2.8 Turbo asynchrone Sprachsynthese
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
{
  "file_id": 123,
  "task_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "task_token": "<string>",
  "usage_characters": 123
}
Verwenden Sie diese Schnittstelle, um eine asynchrone Sprachsynthese-Aufgabe zu erstellen. Unterstützt Text- oder Dateieingaben; die Textlänge ist auf maximal 50.000 Zeichen begrenzt, Dateien auf maximal 100.000 Zeichen.
Dies ist eine asynchrone API und gibt nur die task_id der asynchronen Aufgabe zurück. Sie sollten diese task_id verwenden, um über die API zum Abfragen des Aufgabenergebnisses das generierte Ergebnis abzurufen.

Anfrage-Header

Content-Type
string
erforderlich
Enumerationswert: application/json
Authorization
string
erforderlich
Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragebody

text
string
Der Text, der zu Audio synthetisiert werden soll, begrenzt auf maximal 50.000 Zeichen. Entweder text oder text_file_id ist erforderlich

• Interjektions-Tags: Nur wenn das Modell speech-2.8-hd oder speech-2.8-turbo ausgewählt ist, wird das Einfügen von Interjektions-Tags in den Text unterstützt. Unterstützte Interjektionen: (laughs) (Lachen), (chuckle) (Kichern), (coughs) (Husten), (clear-throat) (Räuspern), (groans) (Stöhnen), (breath) (normales Atmen), (pant) (hecheln), (inhale) (einatmen), (exhale) (ausatmen), (gasps) (nach Luft schnappen), (sniffs) (schniefen), (sighs) (seufzen), (snorts) (schnauben), (burps) (rülpsen), (lip-smacking) (Schmatzen), (humming) (Summen), (hissing) (Zischen), (emm) (ähm), (whistles) (Pfeifen), (sneezes) (Niesen), (crying) (Schluchzen), (applause) (Applaus)
text_file_id
integer
Die ID der Textdatei, die zu Audio synthetisiert werden soll. Die Länge einer einzelnen Datei ist auf weniger als 100.000 Zeichen begrenzt. Unterstützte Dateiformate: txt, zip. Entweder text oder text_file_id ist erforderlich; nach der Übermittlung wird das Format automatisch geprüft.
txt-Datei: Längenbegrenzung <100,000 Zeichen. Unterstützt die Verwendung von &lt;#x#&gt; zur Markierung benutzerdefinierter Pausen. x ist die Pausendauer (Einheit: Sekunden), Bereich [0.01,99.99], maximal zwei Dezimalstellen. Beachten Sie, dass Pausen zwischen zwei sprachlich aussprechbaren Textabschnitten gesetzt werden müssen; mehrere Pausenmarkierungen dürfen nicht direkt hintereinander verwendet werden
zip-Datei:
• Das Archiv muss txt- oder json-Dateien desselben Formats enthalten.
• json-Dateiformat: Unterstützt die drei Felder [title, content, extra], die jeweils Titel, Haupttext und Zusatzinformationen darstellen. Wenn alle drei Felder vorhanden sind, werden 3 Ergebnisgruppen mit insgesamt 9 Dateien erzeugt und gemeinsam in einem Ordner gespeichert. Wenn ein Feld nicht vorhanden ist oder der Inhalt leer ist, wird für dieses Feld kein entsprechendes Ergebnis generiert
voice_modify
object
audio_setting
object
voice_setting
object
erforderlich
aigc_watermark
boolean
Standard:false
Steuert, ob am Ende des synthetisierten Audios eine Audio-Rhythmuskennung hinzugefügt wird. Standardwert ist False. Dieser Parameter ist nur für nicht-streamende Synthese wirksam
language_boost
string
Ob die Erkennungsfähigkeit für bestimmte weniger verbreitete Sprachen und Dialekte verbessert werden soll. Standardwert ist null; kann auf auto gesetzt werden, damit das Modell selbstständig entscheidet.Mögliche Werte: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
continuous_sound
boolean
Standard:false
Aktivieren Sie diesen Parameter, damit Übergänge zwischen Teilsätzen natürlicher klingen. Nur die Modelle speech-2.8-hd und speech-2.8-turbo werden unterstützt
pronunciation_dict
object

Antwortinformationen

file_id
integer
Die ID der entsprechenden Audiodatei, die nach erfolgreicher Erstellung der Aufgabe zurückgegeben wird.

• Nach Abschluss der Aufgabe kann über file_id abgefragt werden. Bei einem Fehler in der Anfrage wird dieses Feld nicht zurückgegeben
Hinweis: Die zurückgegebene Download-URL ist ab der Generierung 9 Stunden (32400 Sekunden) lang gültig. Nach Ablauf wird die Datei ungültig und die generierten Informationen gehen verloren. Bitte achten Sie auf den Zeitpunkt der Download-Informationen
task_id
string
Verwenden Sie task_id, um über die API zum Abfragen des Aufgabenergebnisses die generierte Ausgabe abzurufen.
base_resp
object
task_token
string
Für den Abschluss der aktuellen Aufgabe verwendete Schlüsselinformationen
usage_characters
integer
Anzahl der abgerechneten Zeichen