Passer au contenu principal
POST
/
v3
/
async
/
minimax-speech-2.8-hd
Synthèse vocale asynchrone MiniMax Speech 2.8 HD
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
{
  "file_id": 123,
  "task_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "task_token": "<string>",
  "usage_characters": 123
}
Utilisez cette interface pour créer une tâche de synthèse vocale asynchrone. Les entrées texte ou fichier sont prises en charge, avec une limite de longueur de 50 000 caractères pour le texte et de 100 000 caractères pour les fichiers.
Il s’agit d’une API asynchrone qui renvoie uniquement le task_id de la tâche asynchrone. Vous devez utiliser ce task_id pour appeler l’API de consultation du résultat de tâche afin de récupérer le résultat généré.

En-têtes de requête

Content-Type
string
requis
Valeur d’énumération : application/json
Authorization
string
requis
Format d’authentification Bearer : Bearer {{API Key}}.

Corps de la requête

text
string
Texte de l’audio à synthétiser, limité à 50 000 caractères maximum. L’un des deux champs text ou text_file_id est obligatoire.

• Balises d’interjections : uniquement lorsque le modèle sélectionné est speech-2.8-hd ou speech-2.8-turbo, il est possible d’insérer des balises d’interjections dans le texte. Interjections prises en charge : (laughs) (rire), (chuckle) (petit rire), (coughs) (toux), (clear-throat) (raclement de gorge), (groans) (gémissement), (breath) (respiration normale), (pant) (halètement), (inhale) (inspiration), (exhale) (expiration), (gasps) (aspiration brusque), (sniffs) (reniflement), (sighs) (soupir), (snorts) (souffle par le nez), (burps) (rot), (lip-smacking) (bruit de lèvres), (humming) (fredonnement), (hissing) (sifflement), (emm) (euh), (whistles) (sifflement), (sneezes) (éternuement), (crying) (sanglot), (applause) (applaudissements)
text_file_id
integer
id du fichier texte de l’audio à synthétiser ; la longueur d’un fichier unique doit être inférieure à 100 000 caractères. Formats de fichier pris en charge : txt, zip. L’un des deux champs text ou text_file_id est obligatoire ; le format est automatiquement vérifié après transmission.
Fichier txt : limite de longueur <100000 caractères. Prend en charge l’utilisation de &lt;#x#&gt; pour marquer une pause personnalisée. x correspond à la durée de la pause (en secondes), dans la plage [0.01, 99.99], avec au maximum deux décimales. Notez que la pause doit être placée entre deux segments de texte pouvant être prononcés vocalement ; il n’est pas possible d’utiliser plusieurs marqueurs de pause consécutifs.
Fichier zip :
• L’archive compressée doit contenir des fichiers txt ou json au même format.
• Format du fichier json : les trois champs [title, content, extra] sont pris en charge et représentent respectivement le titre, le corps du texte et les informations supplémentaires. Si les trois champs existent, 3 groupes de résultats sont générés, soit 9 fichiers au total, tous stockés dans un même dossier. Si un champ n’existe pas ou si son contenu est vide, le résultat correspondant à ce champ ne sera pas généré.
voice_modify
object
audio_setting
object
voice_setting
object
requis
aigc_watermark
boolean
défaut:false
Contrôle l’ajout d’un marqueur rythmique audio à la fin de l’audio synthétisé. Valeur par défaut : False. Ce paramètre ne s’applique qu’à la synthèse non streaming.
language_boost
string
Indique s’il faut renforcer la capacité de reconnaissance des langues minoritaires et dialectes spécifiés. La valeur par défaut est null ; vous pouvez définir auto pour laisser le modèle décider automatiquement.Valeurs possibles : Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
continuous_sound
boolean
défaut:false
Activez ce paramètre pour rendre les jonctions entre propositions plus naturelles ; seuls les modèles speech-2.8-hd et speech-2.8-turbo sont pris en charge.
pronunciation_dict
object

Informations de réponse

file_id
integer
ID du fichier audio correspondant renvoyé après la création réussie de la tâche.

• Une fois la tâche terminée, il est possible de consulter le résultat via file_id. Ce champ n’est pas renvoyé en cas d’erreur de requête.
Remarque : l’URL de téléchargement renvoyée est valide pendant 9 heures (32400 secondes) à partir de sa génération. Une fois expirée, le fichier deviendra invalide et les informations générées seront perdues ; veuillez prêter attention à l’heure des informations de téléchargement.
task_id
string
Utilisez task_id pour appeler l’API de consultation du résultat de tâche afin de récupérer la sortie générée.
base_resp
object
task_token
string
Informations de clé utilisées pour finaliser la tâche actuelle
usage_characters
integer
Nombre de caractères facturés