Passer au contenu principal
POST
/
v3
/
elevenlabs-tts-flash-v2.5
ElevenLabs synthèse vocale Flash V2.5
curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-flash-v2.5 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "stream": true,
  "voice_id": "<string>",
  "next_text": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "previous_text": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "next_request_ids": [
    {}
  ],
  "previous_request_ids": [
    {}
  ],
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'
Convertissez du texte en parole avec la voix de votre choix et renvoyez l’audio.

En-têtes de requête

Content-Type
string
requis
Valeurs énumérées : application/json
Authorization
string
requis
Format d’authentification Bearer : Bearer {{API Key}}.

Corps de la requête

seed
integer
Si spécifié, le système essaiera d’effectuer un échantillonnage aussi déterministe que possible. Des requêtes répétées avec le même seed et les mêmes paramètres devraient renvoyer le même résultat, mais le déterminisme complet n’est pas garanti.Plage de valeurs : [0, 4294967295]
text
string
requis
Le texte à convertir en parole.
stream
boolean
Indique s’il faut activer le mode Stream
voice_id
string
requis
L’ID de la voix à utiliser.
next_text
string
Le texte suivant le texte de la requête actuelle. Utilisé pour améliorer la cohérence vocale lors de l’assemblage de plusieurs générations.
language_code
string
Code de langue (ISO 639-1) utilisé pour le modèle et la normalisation du texte. Si le modèle ne prend pas en charge ce code de langue, une erreur sera renvoyée.
output_format
string
défaut:"mp3_44100_128"
Format de sortie de l’audio généré. Le format est codec_sample_rate_bitrate. Le débit de 192 kbps pour MP3 nécessite un compte Creator ou supérieur, et le taux d’échantillonnage de 44,1 kHz pour PCM nécessite un compte Pro ou supérieur.Valeurs possibles : mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192
previous_text
string
Le texte précédant le texte de la requête actuelle. Utilisé pour améliorer la cohérence vocale lors de l’assemblage de plusieurs générations.
use_pvc_as_ivc
boolean
défaut:false
Si true, utilise la version IVC de la voix au lieu de la version PVC. Il s’agit d’une solution temporaire pour la latence plus élevée de la version PVC.
voice_settings
object
next_request_ids
array
Liste des request_id des échantillons suivants. Utilisée pour conserver la cohérence vocale lors de la régénération d’échantillons. Vous pouvez fournir jusqu’à 3 request_id.Longueur du tableau : 0 - 3
previous_request_ids
array
Liste des request_id des échantillons générés avant la génération actuelle. Peut être utilisée pour améliorer la cohérence vocale. Vous pouvez fournir jusqu’à 3 request_id.Longueur du tableau : 0 - 3
apply_text_normalization
string
défaut:"auto"
Contrôle la normalisation du texte. ‘auto’ laisse le système décider, ‘on’ normalise toujours, et ‘off’ l’ignore.Valeurs possibles : auto, on, off
apply_language_text_normalization
boolean
défaut:false
Contrôle la normalisation linguistique du texte pour certaines langues prises en charge afin d’obtenir une prononciation plus naturelle. Avertissement : cela peut augmenter considérablement la latence. Actuellement, seul le japonais est pris en charge.
pronunciation_dictionary_locators
array
Liste des localisateurs de dictionnaire de prononciation (id, version_id) à appliquer au texte. Ils prennent effet dans l’ordre. Chaque requête peut contenir au maximum 3 localisateurs.Longueur du tableau : 0 - 3

Informations de réponse

Fichier audio généré Format : binary