Passer au contenu principal
POST
/
v3
/
async
/
minimax-speech-02-hd
Synthèse vocale asynchrone MiniMax Speech-02-hd
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-02-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'
{
  "task_id": "<string>"
}
Cette API prend en charge la génération asynchrone de texte en parole. Une seule transmission de génération de texte prend en charge jusqu’à 1 million de caractères, et le résultat audio complet généré peut être récupéré de manière asynchrone. Elle prend en charge plus de 100 voix système ainsi que le choix de voix clonées ; elle permet également d’ajuster librement l’intonation, la vitesse, le volume, le débit binaire, le taux d’échantillonnage et le format de sortie. Après avoir soumis une demande de synthèse vocale de texte long, veuillez noter que l’url retournée est valide pendant 24 heures à compter du moment où elle est retournée. Veuillez faire attention au délai de téléchargement des informations.
Adapté à la génération vocale de textes longs, tels que des livres entiers ; le temps d’attente en file de tâche peut être relativement long. Pour les scénarios tels que la génération de phrases courtes, le chat vocal et les interactions sociales en ligne, il est recommandé d’utiliser la synthèse vocale par appel synchrone.

En-têtes de requête

Content-Type
string
requis
Valeur d’énumération : application/json
Authorization
string
requis
Format d’authentification Bearer : Bearer {{API Key}}.

Corps de la requête

text
string
requis
Texte à synthétiser, limité à un maximum de 50 000 caractères.
voice_setting
object
requis
audio_setting
object
pronunciation_dict
object
language_boost
string
défaut:"null"
Renforce la capacité de reconnaissance des langues minoritaires et dialectes spécifiés. Une fois défini, ce paramètre peut améliorer les performances vocales dans les scénarios de langue minoritaire/dialecte spécifiés. Si le type de langue minoritaire n’est pas clair, vous pouvez choisir “auto” ; le modèle déterminera automatiquement le type de langue minoritaire. Les valeurs suivantes sont prises en charge :'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
voice_modify
object
Paramètres d’effets vocaux ; formats audio pris en charge par ce paramètre : mp3, wav, flac

Paramètres des informations de réponse

task_id
string
requis
task_id de la tâche asynchrone. Vous devez utiliser ce task_id pour demander l’API de requête du résultat de tâche afin d’obtenir le résultat généré