Passer au contenu principal
POST
/
v3
/
minimax-speech-2.8-turbo
Synthèse vocale synchrone MiniMax Speech 2.8 Turbo
curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}
Convertit du texte en parole, avec prise en charge de plusieurs timbres, du contrôle des émotions, du réglage de la vitesse d’élocution, etc. La longueur du texte doit être inférieure à 10000 caractères. Si la longueur du texte dépasse 3000 caractères, il est recommandé d’utiliser la sortie en streaming.

En-têtes de requête

Content-Type
string
requis
Valeur énumérée : application/json
Authorization
string
requis
Format d’authentification Bearer : Bearer {{clé API}}.

Corps de la requête

text
string
requis
Texte à synthétiser en parole. La longueur doit être inférieure à 10000 caractères. Si la longueur du texte dépasse 3000 caractères, il est recommandé d’utiliser la sortie en streaming. Prend en charge les changements de paragraphe (sauts de ligne), le contrôle des pauses (marqueur &lt;#x#&gt;) et les balises d’interjections/sons vocaux (comme (laughs), (coughs), etc., uniquement prises en charge par speech-2.8-hd/turbo)
stream
boolean
défaut:false
Contrôle l’activation de la sortie en streaming. La valeur par défaut est false, c’est-à-dire que le streaming n’est pas activé
voice_modify
object
audio_setting
object
output_format
string
défaut:"hex"
Paramètre contrôlant le format du résultat de sortie. Les valeurs possibles sont url et hex, valeur par défaut hex. Ce paramètre ne prend effet que dans les scénarios non streaming ; en streaming, seul le retour au format hex est pris en charge. L’url retournée est valable 24 heuresValeurs possibles : url, hex
voice_setting
object
aigc_watermark
boolean
défaut:false
Contrôle l’ajout d’un marqueur rythmique audio à la fin de l’audio synthétisé, valeur par défaut false. Ce paramètre ne prend effet que pour la synthèse non streaming
language_boost
string
Indique s’il faut renforcer la capacité de reconnaissance pour les langues minoritaires et dialectes spécifiés. La valeur par défaut est null ; vous pouvez définir auto pour laisser le modèle déterminer automatiquementValeurs possibles : Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
stream_options
object
timber_weights
array
Paramètre de timbre mixte, avec prise en charge du mélange de 4 timbres au maximum
subtitle_enable
boolean
défaut:false
Contrôle l’activation du service de sous-titres, valeur par défaut false. Ce paramètre n’est valide que dans les scénarios de sortie non streaming et uniquement pour les modèles speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd
continuous_sound
boolean
défaut:false
Activez ce paramètre pour rendre les transitions entre sous-phrases plus naturelles. Pris en charge uniquement par les modèles speech-2.8-hd et speech-2.8-turbo
pronunciation_dict
object

Informations de réponse

data
object
Objet de données de synthèse retourné, qui peut être null et doit donc faire l’objet d’une vérification de non-nullité
trace_id
string
id de cette session, utilisé pour aider à localiser le problème lors d’une demande d’assistance ou d’un retour
base_resp
object
Code d’état et détails de cette requête
extra_info
object
Informations supplémentaires de l’audio