Passer au contenu principal
POST
/
v3
/
async
/
minimax-speech-2.6-turbo
Synthèse vocale asynchrone MiniMax Speech-2.6-turbo
curl --request POST \
  --url https://api.highwayapi.ai/v3/async/minimax-speech-2.6-turbo \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "language_boost": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'
{
  "task_id": "<string>"
}
Cette API prend en charge la génération asynchrone de texte en parole. Une génération de texte unique prend en charge jusqu’à 1 million de caractères transmis, et le résultat audio complet généré peut être récupéré de manière asynchrone. Elle prend en charge plus de 100 voix système, ainsi que le choix autonome de voix clonées ; elle permet également d’ajuster librement l’intonation, la vitesse, le volume, le débit binaire, le taux d’échantillonnage et le format de sortie. Après avoir soumis une demande de synthèse vocale pour un texte long, veuillez noter que l’url retournée est valable 24 heures à compter de sa génération. Veillez à télécharger les informations dans le délai imparti.
Convient à la génération vocale de textes longs, comme des livres entiers. Le temps d’attente dans la file de tâches peut être relativement long. Pour les phrases courtes, les chats vocaux, les interactions sociales en ligne et autres scénarios similaires, il est recommandé d’utiliser l’appel synchrone de synthèse vocale.

En-têtes de requête

Content-Type
string
requis
Valeur énumérée : application/json
Authorization
string
requis
Format d’authentification Bearer : Bearer {{API Key}}.

Corps de la requête

text
string
requis
Texte à synthétiser, limité à 50 000 caractères au maximum.
voice_setting
object
requis
audio_setting
object
pronunciation_dict
object
language_boost
string
défaut:"null"
Renforce la capacité de reconnaissance des langues moins répandues et des dialectes spécifiés. Une fois défini, ce paramètre peut améliorer les performances vocales dans les scénarios utilisant la langue moins répandue/le dialecte spécifié. Si le type de langue moins répandue n’est pas clairement connu, vous pouvez choisir “auto”, et le modèle déterminera automatiquement le type de langue moins répandue. Les valeurs suivantes sont prises en charge :'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
voice_modify
object
Paramètres des effets vocaux. Formats audio pris en charge par ce paramètre : mp3, wav, flac

Paramètres des informations de réponse

task_id
string
requis
task_id de la tâche asynchrone. Vous devez utiliser ce task_id pour appeler l’API de requête du résultat de tâche afin d’obtenir le résultat généré