Zum Hauptinhalt springen
POST
/
v3
/
minimax-speech-2.8-hd
MiniMax Speech 2.8 HD synchrone Sprachsynthese
curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}
Konvertiert Text in Sprache und unterstützt verschiedene Stimmen, Emotionssteuerung, Anpassung der Sprechgeschwindigkeit und weitere Funktionen. Die Textlänge ist auf weniger als 10000 Zeichen begrenzt. Wenn die Textlänge mehr als 3000 Zeichen beträgt, wird die Verwendung von Streaming-Ausgabe empfohlen.

Anfrage-Header

Content-Type
string
erforderlich
Enumerationswert: application/json
Authorization
string
erforderlich
Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragekörper

text
string
erforderlich
Der Text, der in Sprache synthetisiert werden soll. Die Länge ist auf weniger als 10000 Zeichen begrenzt. Wenn die Textlänge mehr als 3000 Zeichen beträgt, wird die Verwendung von Streaming-Ausgabe empfohlen. Unterstützt Absatzwechsel (Zeilenumbrüche), Pausensteuerung (&lt;#x#&gt;-Markierung) und Interjektions-/Paralinguistik-Tags (z. B. (laughs), (coughs) usw.; nur von speech-2.8-hd/turbo unterstützt)
stream
boolean
Standard:false
Steuert, ob Streaming-Ausgabe verwendet wird. Standardmäßig false, d. h. Streaming ist nicht aktiviert
voice_modify
object
audio_setting
object
output_format
string
Standard:"hex"
Parameter zur Steuerung des Ausgabeformats. Mögliche Werte sind url und hex, Standardwert ist hex. Dieser Parameter ist nur in nicht gestreamten Szenarien wirksam; Streaming-Szenarien unterstützen nur die Rückgabe im hex-Format. Die zurückgegebene url ist 24 Stunden gültigMögliche Werte: url, hex
voice_setting
object
aigc_watermark
boolean
Standard:false
Steuert, ob am Ende der synthetisierten Audiodatei eine Audio-Rhythmuskennung hinzugefügt wird. Standardwert ist false. Dieser Parameter ist nur für nicht gestreamte Synthese wirksam
language_boost
string
Gibt an, ob die Erkennungsfähigkeit für bestimmte weniger verbreitete Sprachen und Dialekte verbessert werden soll. Standardwert ist null; kann auf auto gesetzt werden, damit das Modell selbstständig entscheidetMögliche Werte: Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
stream_options
object
timber_weights
array
Einstellung für gemischte Stimmen; unterstützt die Mischung von maximal 4 Stimmen
subtitle_enable
boolean
Standard:false
Steuert, ob der Untertiteldienst aktiviert wird. Standardwert ist false. Dieser Parameter ist nur in Szenarien mit nicht gestreamter Ausgabe gültig und nur für die Modelle speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd wirksam
continuous_sound
boolean
Standard:false
Aktivieren Sie diesen Parameter, damit Übergänge zwischen Teilsätzen natürlicher klingen. Unterstützt nur die Modelle speech-2.8-hd und speech-2.8-turbo
pronunciation_dict
object

Antwortinformationen

data
object
Zurückgegebenes Synthesedatenobjekt; kann null sein und muss auf Nicht-Null geprüft werden
trace_id
string
id dieser Sitzung; hilft bei Anfragen/Feedback, das Problem zu lokalisieren
base_resp
object
Statuscode und Details dieser Anfrage
extra_info
object
Zusätzliche Informationen zur Audiodatei