Passer au contenu principal
POST
/
v3
/
minimax-speech-2.8-hd
Synthèse vocale synchrone MiniMax Speech 2.8 HD
curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
{
  "data": {},
  "trace_id": "<string>",
  "base_resp": {},
  "extra_info": {}
}
Convertit du texte en parole, avec prise en charge de plusieurs voix, du contrôle des émotions, du réglage de la vitesse d’élocution, etc. La longueur du texte doit être inférieure à 10000 caractères. Si le texte dépasse 3000 caractères, il est recommandé d’utiliser une sortie en streaming.

En-têtes de requête

Content-Type
string
requis
Valeur énumérée : application/json
Authorization
string
requis
Format d’authentification Bearer : Bearer {{API Key}}.

Corps de la requête

text
string
requis
Texte à synthétiser en parole. La longueur doit être inférieure à 10000 caractères. Si le texte dépasse 3000 caractères, il est recommandé d’utiliser une sortie en streaming. Prend en charge les changements de paragraphe (sauts de ligne), le contrôle des pauses (marqueur &lt;#x#&gt;) et les balises d’interjections (comme (laughs), (coughs), etc., uniquement prises en charge par speech-2.8-hd/turbo)
stream
boolean
défaut:false
Contrôle si la sortie est en streaming. Par défaut : false, c’est-à-dire sans streaming
voice_modify
object
audio_setting
object
output_format
string
défaut:"hex"
Paramètre contrôlant le format du résultat de sortie. Valeurs disponibles : url, hex ; valeur par défaut : hex. Ce paramètre ne prend effet que dans les scénarios non streaming. Les scénarios streaming ne prennent en charge que le retour au format hex. L’url retournée est valide pendant 24 heuresValeurs disponibles : url, hex
voice_setting
object
aigc_watermark
boolean
défaut:false
Contrôle l’ajout d’un identifiant rythmique audio à la fin de l’audio synthétisé. Valeur par défaut : false. Ce paramètre ne prend effet que pour la synthèse non streaming
language_boost
string
Indique s’il faut renforcer la capacité de reconnaissance des langues moins répandues et des dialectes spécifiés. Valeur par défaut : null ; peut être défini sur auto pour laisser le modèle déterminer automatiquementValeurs disponibles : Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
stream_options
object
timber_weights
array
Paramètres de voix mixte, avec un maximum de 4 voix mélangées
subtitle_enable
boolean
défaut:false
Contrôle l’activation du service de sous-titres. Valeur par défaut : false. Ce paramètre n’est valide que dans les scénarios de sortie non streaming et uniquement pour les modèles speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd
continuous_sound
boolean
défaut:false
Activez ce paramètre pour rendre les transitions entre propositions plus naturelles. Ne prend en charge que les modèles speech-2.8-hd et speech-2.8-turbo
pronunciation_dict
object

Informations de réponse

data
object
Objet de données de synthèse retourné, pouvant être null ; une vérification non nulle est requise
trace_id
string
id de cette session, utilisé pour aider à localiser le problème lors d’une demande d’assistance ou d’un retour
base_resp
object
Code d’état et détails de cette requête
extra_info
object
Informations supplémentaires de l’audio