Zum Hauptinhalt springen
POST
/
v3
/
minimax-speech-2.8-turbo
MiniMax Speech 2.8 Turbo synchrone Sprachsynthese
curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}
Konvertiert Text in Sprache und unterstützt mehrere Stimmen, Emotionssteuerung, Anpassung der Sprechgeschwindigkeit und weitere Funktionen. Die Textlänge muss unter 10000 Zeichen liegen. Wenn die Textlänge mehr als 3000 Zeichen beträgt, wird die Verwendung einer Streaming-Ausgabe empfohlen.

Anfrageheader

Content-Type
string
erforderlich
Enumerationswert: application/json
Authorization
string
erforderlich
Bearer-Authentifizierungsformat: Bearer {{API-Schlüssel}}.

Anfragetext

text
string
erforderlich
Der Text, für den Sprache synthetisiert werden soll. Die Längenbegrenzung liegt unter 10000 Zeichen. Wenn die Textlänge mehr als 3000 Zeichen beträgt, wird die Verwendung einer Streaming-Ausgabe empfohlen. Unterstützt Absatzwechsel (Zeilenumbrüche), Pausensteuerung (&lt;#x#&gt;-Markierung) und Füllwort-Tags (z. B. (laughs), (coughs) usw.; nur von speech-2.8-hd/turbo unterstützt).
stream
boolean
Standard:false
Steuert, ob die Ausgabe per Streaming erfolgt. Standardmäßig false, d. h. Streaming ist nicht aktiviert.
voice_modify
object
audio_setting
object
output_format
string
Standard:"hex"
Parameter zur Steuerung der Form des Ausgabeergebnisses. Mögliche Werte sind url und hex, Standardwert ist hex. Dieser Parameter ist nur in Nicht-Streaming-Szenarien wirksam; Streaming-Szenarien unterstützen nur die Rückgabe im hex-Format. Die zurückgegebene url ist 24 Stunden lang gültig.Mögliche Werte: url, hex
voice_setting
object
aigc_watermark
boolean
Standard:false
Steuert, ob am Ende des synthetisierten Audios eine Audio-Rhythmuskennung hinzugefügt wird. Standardwert ist false. Dieser Parameter ist nur für Nicht-Streaming-Synthese wirksam.
language_boost
string
Gibt an, ob die Erkennungsfähigkeit für angegebene kleinere Sprachen und Dialekte verbessert werden soll. Standardwert ist null; kann auf auto gesetzt werden, damit das Modell selbstständig entscheidet.Mögliche Werte: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
stream_options
object
timber_weights
array
Einstellung für gemischte Stimmen; unterstützt die Mischung von bis zu 4 Stimmen.
subtitle_enable
boolean
Standard:false
Steuert, ob der Untertiteldienst aktiviert wird. Standardwert ist false. Dieser Parameter ist nur in Nicht-Streaming-Ausgabeszenarien gültig und nur für die Modelle speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd wirksam.
continuous_sound
boolean
Standard:false
Aktivieren Sie diesen Parameter, damit Übergänge zwischen Teilsätzen natürlicher klingen. Wird nur von den Modellen speech-2.8-hd und speech-2.8-turbo unterstützt.
pronunciation_dict
object

Antwortinformationen

data
object
Zurückgegebenes Synthesedatenobjekt. Kann null sein; daher ist eine Nicht-null-Prüfung erforderlich.
trace_id
string
ID dieser Sitzung, die bei Anfragen/Feedback hilft, das Problem zu lokalisieren.
base_resp
object
Statuscode und Details dieser Anfrage.
extra_info
object
Zusätzliche Informationen zum Audio.