ElevenLabs synthèse vocale Flash V2.5

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-flash-v2.5 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "stream": true,
  "voice_id": "<string>",
  "next_text": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "previous_text": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "next_request_ids": [
    {}
  ],
  "previous_request_ids": [
    {}
  ],
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'

POST

elevenlabs-tts-flash-v2.5

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-flash-v2.5 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "stream": true,
  "voice_id": "<string>",
  "next_text": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "previous_text": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "next_request_ids": [
    {}
  ],
  "previous_request_ids": [
    {}
  ],
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'

Convertissez du texte en parole avec la voix de votre choix et renvoyez l’audio.

En-têtes de requête

Content-Type

string

requis

Valeurs énumérées : application/json

Authorization

string

requis

Format d’authentification Bearer : Bearer {{API Key}}.

Corps de la requête

seed

integer

Si spécifié, le système essaiera d’effectuer un échantillonnage aussi déterministe que possible. Des requêtes répétées avec le même seed et les mêmes paramètres devraient renvoyer le même résultat, mais le déterminisme complet n’est pas garanti.Plage de valeurs : [0, 4294967295]

text

string

requis

Le texte à convertir en parole.

stream

boolean

Indique s’il faut activer le mode Stream

voice_id

string

requis

L’ID de la voix à utiliser.

next_text

string

Le texte suivant le texte de la requête actuelle. Utilisé pour améliorer la cohérence vocale lors de l’assemblage de plusieurs générations.

language_code

string

Code de langue (ISO 639-1) utilisé pour le modèle et la normalisation du texte. Si le modèle ne prend pas en charge ce code de langue, une erreur sera renvoyée.

output_format

string

défaut:"mp3_44100_128"

Format de sortie de l’audio généré. Le format est codec_sample_rate_bitrate. Le débit de 192 kbps pour MP3 nécessite un compte Creator ou supérieur, et le taux d’échantillonnage de 44,1 kHz pour PCM nécessite un compte Pro ou supérieur.Valeurs possibles : mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192

previous_text

string

Le texte précédant le texte de la requête actuelle. Utilisé pour améliorer la cohérence vocale lors de l’assemblage de plusieurs générations.

use_pvc_as_ivc

boolean

défaut:false

Si true, utilise la version IVC de la voix au lieu de la version PVC. Il s’agit d’une solution temporaire pour la latence plus élevée de la version PVC.

voice_settings

object

Masquer properties

speed

number

défaut:1

Ajuste la vitesse de la voix. 1.0 est la vitesse par défaut ; une valeur inférieure à 1.0 ralentit le débit, tandis qu’une valeur supérieure à 1.0 l’accélère.

style

number

défaut:0

Détermine le degré d’exagération du style vocal. Tente d’amplifier le style du locuteur d’origine. Une valeur différente de 0 consomme davantage de ressources de calcul et peut augmenter la latence.

stability

number

Détermine la stabilité de la génération vocale et le caractère aléatoire entre les générations. Des valeurs plus faibles offrent une plage émotionnelle plus large, tandis que des valeurs plus élevées peuvent rendre la voix monotone.

similarity_boost

number

Détermine à quel point l’IA tente de reproduire fidèlement la voix d’origine.

use_speaker_boost

boolean

défaut:true

Renforce la similarité avec le locuteur d’origine. Nécessite une charge de calcul légèrement plus élevée et augmente la latence.

next_request_ids

array

Liste des request_id des échantillons suivants. Utilisée pour conserver la cohérence vocale lors de la régénération d’échantillons. Vous pouvez fournir jusqu’à 3 request_id.Longueur du tableau : 0 - 3

previous_request_ids

array

Liste des request_id des échantillons générés avant la génération actuelle. Peut être utilisée pour améliorer la cohérence vocale. Vous pouvez fournir jusqu’à 3 request_id.Longueur du tableau : 0 - 3

apply_text_normalization

string

défaut:"auto"

Contrôle la normalisation du texte. ‘auto’ laisse le système décider, ‘on’ normalise toujours, et ‘off’ l’ignore.Valeurs possibles : auto, on, off

apply_language_text_normalization

boolean

défaut:false

Contrôle la normalisation linguistique du texte pour certaines langues prises en charge afin d’obtenir une prononciation plus naturelle. Avertissement : cela peut augmenter considérablement la latence. Actuellement, seul le japonais est pris en charge.

pronunciation_dictionary_locators

array

Liste des localisateurs de dictionnaire de prononciation (id, version_id) à appliquer au texte. Ils prennent effet dans l’ordre. Chaque requête peut contenir au maximum 3 localisateurs.Longueur du tableau : 0 - 3

Masquer properties

version_id

string

ID de la version du dictionnaire de prononciation. Si non spécifié, la dernière version est utilisée.

pronunciation_dictionary_id

string

requis

ID du dictionnaire de prononciation.

Informations de réponse

Fichier audio généré Format : binary

Synthèse vocale ElevenLabs Flash V2

ElevenLabs synthèse vocale Multilingual V2

​En-têtes de requête

​Corps de la requête

​Informations de réponse

En-têtes de requête

Corps de la requête

Informations de réponse