Passer au contenu principal
POST
/
v3
/
async
/
minimax-speech-2.8-turbo
Synthèse vocale asynchrone MiniMax Speech 2.8 Turbo
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.8-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
{
  "file_id": 123,
  "task_id": "<string>",
  "base_resp": {
    "status_msg": "<string>",
    "status_code": 123
  },
  "task_token": "<string>",
  "usage_characters": 123
}
Utilisez cette interface pour créer une tâche de synthèse vocale asynchrone. Les entrées texte ou fichier sont prises en charge : le texte est limité à 50 000 caractères maximum, et les fichiers à 100 000 caractères maximum.
Il s’agit d’une API asynchrone : elle renvoie uniquement le task_id de la tâche asynchrone. Vous devez utiliser ce task_id pour appeler l’API de requête du résultat de tâche afin de récupérer le résultat généré.

En-têtes de requête

Content-Type
string
requis
Valeur d’énumération : application/json
Authorization
string
requis
Format d’authentification Bearer : Bearer {{API Key}}.

Corps de la requête

text
string
Texte de l’audio à synthétiser, limité à 50 000 caractères maximum. L’un des champs text ou text_file_id est obligatoire

• Balises d’interjections : uniquement lorsque le modèle sélectionné est speech-2.8-hd ou speech-2.8-turbo, l’insertion de balises d’interjections dans le texte est prise en charge. Interjections prises en charge : (laughs) (rire), (chuckle) (petit rire), (coughs) (toux), (clear-throat) (raclement de gorge), (groans) (gémissement), (breath) (respiration normale), (pant) (halètement), (inhale) (inspiration), (exhale) (expiration), (gasps) (inspiration brusque), (sniffs) (reniflement), (sighs) (soupir), (snorts) (souffle nasal), (burps) (rot), (lip-smacking) (claquement de lèvres), (humming) (fredonnement), (hissing) (sifflement), (emm) (euh), (whistles) (sifflement), (sneezes) (éternuement), (crying) (sanglot), (applause) (applaudissements)
text_file_id
integer
ID du fichier texte de l’audio à synthétiser. La longueur d’un fichier unique doit être inférieure à 100 000 caractères. Formats de fichier pris en charge : txt, zip. L’un des champs text ou text_file_id est obligatoire ; une fois fourni, le format est automatiquement vérifié.
Fichier txt : longueur limitée à <100,000 caractères. L’utilisation de &lt;#x#&gt; pour marquer des pauses personnalisées est prise en charge. x correspond à la durée de la pause (en secondes), dans la plage [0.01,99.99], avec au maximum deux décimales. Notez que la pause doit être placée entre deux segments de texte pouvant être prononcés vocalement ; il n’est pas possible d’utiliser plusieurs marqueurs de pause consécutifs
Fichier zip :
• L’archive compressée doit contenir des fichiers txt ou json du même format.
• Format du fichier json : les trois champs [title, content, extra] sont pris en charge et représentent respectivement le titre, le corps du texte et les informations supplémentaires. Si les trois champs existent, 3 groupes de résultats sont produits, soit 9 fichiers au total, stockés ensemble dans un même dossier. Si un champ n’existe pas ou si son contenu est vide, aucun résultat correspondant à ce champ ne sera généré
voice_modify
object
audio_setting
object
voice_setting
object
requis
aigc_watermark
boolean
défaut:false
Contrôle l’ajout d’un identifiant rythmique audio à la fin de l’audio synthétisé. Valeur par défaut : False. Ce paramètre ne s’applique qu’à la synthèse non diffusée en streaming
language_boost
string
Indique s’il faut renforcer la capacité de reconnaissance pour les langues minoritaires et dialectes spécifiés. La valeur par défaut est null ; vous pouvez la définir sur auto pour laisser le modèle décider automatiquement.Valeurs disponibles : Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto
continuous_sound
boolean
défaut:false
Activez ce paramètre pour rendre les transitions entre propositions plus naturelles. Pris en charge uniquement par les modèles speech-2.8-hd et speech-2.8-turbo
pronunciation_dict
object

Informations de réponse

file_id
integer
ID du fichier audio correspondant renvoyé après la création réussie de la tâche.

• Une fois la tâche terminée, il peut être utilisé pour effectuer une requête via file_id. Lorsque la requête échoue, ce champ n’est pas renvoyé
Remarque : l’URL de téléchargement renvoyée est valide pendant 9 heures (32400 secondes) à compter de sa génération. Une fois expirée, le fichier deviendra invalide et les informations générées seront perdues ; veillez à télécharger les informations à temps
task_id
string
Utilisez task_id pour appeler l’API de requête du résultat de tâche afin de récupérer la sortie générée.
base_resp
object
task_token
string
Informations de clé utilisées pour terminer la tâche actuelle
usage_characters
integer
Nombre de caractères facturés