Passer au contenu principal
POST
/
v3
/
minimax-speech-02-hd
Synthèse vocale synchrone MiniMax Speech-02-hd
curl --request POST \
  --url https://api.highwayapi.ai/v3/minimax-speech-02-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "voice_setting": {
    "speed": 123,
    "vol": 123,
    "pitch": 123,
    "voice_id": "<string>",
    "emotion": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "audio_setting": {
    "sample_rate": 123,
    "bitrate": 123,
    "format": "<string>",
    "channel": 123
  },
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  },
  "timbre_weights": [
    {
      "voice_id": "<string>",
      "weight": 123
    }
  ],
  "stream": true,
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "language_boost": "<string>",
  "output_format": "<string>",
  "voice_modify": {
    "pitch": 123,
    "intensity": 123,
    "timbre": 123,
    "sound_effects": "<string>"
  }
}
'
{
  "audio": "<string>",
  "status": 123
}
Cette API prend en charge la génération synchrone de texte en parole, avec un maximum de 10000 caractères par transmission de texte. Elle prend en charge plus de 100 voix système, ainsi que le choix autonome de voix répliquées ; elle permet d’ajuster le volume, l’intonation, la vitesse et le format de sortie ; elle prend en charge le mixage proportionnel, le contrôle d’intervalles fixes ; elle prend également en charge plusieurs spécifications et formats audio, notamment : mp3, pcm, flac, wav, ainsi que la sortie en streaming. Après avoir soumis une requête de synthèse vocale pour un texte long, veuillez noter que l’URL renvoyée est valide pendant 24 heures à compter du moment où elle est renvoyée. Veillez à télécharger les informations dans les délais.
Convient aux scénarios tels que la génération de phrases courtes, le chat vocal et les interactions sociales en ligne. Le temps de traitement est court, mais la longueur du texte est limitée à moins de 10000 caractères. Pour les textes longs, il est recommandé d’utiliser l’appel asynchrone de synthèse vocale.

En-têtes de requête

Content-Type
string
requis
Valeur énumérée : application/json
Authorization
string
requis
Format d’authentification Bearer : Bearer {{API Key}}.

Corps de la requête

text
string
requis
Texte à synthétiser, d’une longueur inférieure à 10000 caractères ; les changements de paragraphe doivent être remplacés par des retours à la ligne. (Si vous devez contrôler les intervalles dans la voix, ajoutez <#x#> entre les caractères, où x est exprimé en secondes, avec une plage prise en charge de 0.01 à 99.99 et au maximum deux décimales). Prend en charge la personnalisation de l’intervalle temporel vocal entre les textes afin d’obtenir des pauses vocales personnalisées. Veuillez noter que l’intervalle entre les textes doit être défini entre deux segments de texte prononçables et qu’il n’est pas possible de définir plusieurs intervalles temporels consécutifs.
voice_setting
object
requis
audio_setting
object
pronunciation_dict
object
timbre_weights
object[]
Obligatoire au choix avec voice_id
stream
boolean
défaut:"false"
Indique si la sortie est en streaming. Par défaut : false, c’est-à-dire que le streaming n’est pas activé.
stream_options
object
language_boost
string
défaut:"null"
Améliore la capacité de reconnaissance pour les langues minoritaires et dialectes spécifiés. Une fois défini, ce paramètre peut améliorer les performances vocales dans les scénarios de langues minoritaires/dialectes spécifiés. Si le type de langue minoritaire n’est pas clair, vous pouvez choisir “auto” ; le modèle déterminera alors automatiquement le type de langue minoritaire. Les valeurs suivantes sont prises en charge :'Chinese', 'Chinese,Yue', 'English', 'Arabic', 'Russian', 'Spanish', 'French', 'Portuguese', 'German', 'Turkish', 'Dutch', 'Ukrainian', 'Vietnamese', 'Indonesian', 'Japanese', 'Italian', 'Korean', 'Thai', 'Polish', 'Romanian', 'Greek', 'Czech', 'Finnish', 'Hindi', 'Bulgarian', 'Danish', 'Hebrew', 'Malay', 'Persian', 'Slovak', 'Swedish', 'Croatian', 'Filipino', 'Hungarian', 'Norwegian', 'Slovenian', 'Catalan', 'Nynorsk', 'Tamil', 'Afrikaans', 'auto'
output_format
string
défaut:"hex"
Paramètre contrôlant la forme du résultat de sortie. Les valeurs possibles sont url hex. La valeur par défaut est hex. Ce paramètre ne prend effet que dans les scénarios non streaming ; en streaming, seul le retour au format hex est pris en charge. L’URL renvoyée est valide pendant 24 heures.
voice_modify
object
Paramètres d’effets vocaux. Ce paramètre prend en charge les formats audio suivants :
  • Non streaming : mp3, wav, flac
  • Streaming : mp3

Informations de réponse

audio
string
Segment audio synthétisé, encodé en hex, généré selon le format défini en entrée (audio_setting.format) (mp3/pcm/flac). La forme du retour dépend de la définition de output_format ; lorsque stream vaut true, seul le retour au format hex est pris en charge.
status
number
État actuel du flux audio, renvoyé uniquement lorsque stream vaut true. 1 indique que la synthèse est en cours, 2 indique que la synthèse est terminée.