ElevenLabs texte vers parole Turbo V2.5

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-turbo-v2.5 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "voice_id": "<string>",
  "next_text": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "previous_text": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "next_request_ids": [
    {}
  ],
  "previous_request_ids": [
    {}
  ],
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'

POST

elevenlabs-tts-turbo-v2.5

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-turbo-v2.5 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "voice_id": "<string>",
  "next_text": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "previous_text": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "next_request_ids": [
    {}
  ],
  "previous_request_ids": [
    {}
  ],
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'

Convertit du texte en parole avec la voix de votre choix et renvoie l’audio.

En-têtes de requête

Content-Type

string

requis

Valeur d’énumération : application/json

Authorization

string

requis

Format d’authentification Bearer : Bearer {{API Key}}.

Corps de la requête

seed

integer

Si spécifié, le système tentera d’échantillonner de manière déterministe. Des requêtes répétées avec le même seed et les mêmes paramètres devraient renvoyer le même résultat, mais le déterminisme complet n’est pas garanti.Plage de valeurs : [0, 4294967295]

text

string

requis

Le texte à convertir en parole.

voice_id

string

requis

L’ID de la voix à utiliser.

next_text

string

Le texte qui suit le texte de la requête actuelle. Utilisé pour améliorer la cohérence vocale lors de l’assemblage de plusieurs générations.

language_code

string

Code de langue (ISO 639-1) utilisé pour le modèle et la normalisation du texte. Si le modèle ne prend pas en charge ce code de langue, une erreur sera renvoyée.

output_format

string

défaut:"mp3_44100_128"

Format de sortie de l’audio généré. Le format est codec_sample_rate_bitrate. Le débit binaire MP3 de 192 kbps nécessite un compte Creator ou supérieur, et la fréquence d’échantillonnage PCM de 44,1 kHz nécessite un compte Pro ou supérieur.Valeurs possibles : mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192

previous_text

string

Le texte qui précède le texte de la requête actuelle. Utilisé pour améliorer la cohérence vocale lors de l’assemblage de plusieurs générations.

use_pvc_as_ivc

boolean

défaut:false

Si true, utilise la version IVC de la voix au lieu de la version PVC. Il s’agit d’une solution temporaire pour la latence plus élevée de la version PVC.

voice_settings

object

Masquer properties

speed

number

défaut:1

Ajuste la vitesse de la voix. 1.0 est la vitesse par défaut ; une valeur inférieure à 1.0 ralentit le débit, tandis qu’une valeur supérieure à 1.0 l’accélère.

style

number

défaut:0

Détermine le degré d’exagération du style vocal. Tente d’amplifier le style du locuteur original. Une valeur non nulle consomme davantage de ressources de calcul et peut augmenter la latence.

stability

number

Détermine la stabilité de la génération vocale et le degré d’aléatoire entre chaque génération. Des valeurs plus faibles offrent une gamme émotionnelle plus large, tandis que des valeurs plus élevées peuvent rendre la voix monotone.

similarity_boost

number

Détermine à quel point l’IA tente de se rapprocher de la voix originale.

use_speaker_boost

boolean

défaut:true

Renforce la similarité avec le locuteur original. Nécessite une charge de calcul légèrement plus élevée et augmente la latence.

next_request_ids

array

Liste des request_id des échantillons suivants. Utilisée pour maintenir la cohérence vocale lors de la régénération d’échantillons. Vous pouvez transmettre jusqu’à 3 request_id.Longueur du tableau : 0 - 3

previous_request_ids

array

Liste des request_id des échantillons déjà générés avant la génération actuelle. Peut être utilisée pour améliorer la cohérence vocale. Vous pouvez transmettre jusqu’à 3 request_id.Longueur du tableau : 0 - 3

apply_text_normalization

string

défaut:"auto"

Contrôle la normalisation du texte. ‘auto’ laisse le système décider, ‘on’ normalise toujours, et ‘off’ l’ignore.Valeurs possibles : auto, on, off

apply_language_text_normalization

boolean

défaut:false

Contrôle la normalisation linguistique du texte pour certaines langues prises en charge afin d’obtenir une prononciation plus naturelle. Avertissement : cela peut augmenter considérablement la latence. Actuellement, seul le japonais est pris en charge.

pronunciation_dictionary_locators

array

Liste des localisateurs de dictionnaire de prononciation (id, version_id) à appliquer au texte. Ils prennent effet dans l’ordre. Chaque requête peut contenir jusqu’à 3 localisateurs.Longueur du tableau : 0 - 3

Masquer properties

version_id

string

L’ID de la version du dictionnaire de prononciation. Si non spécifié, la dernière version est utilisée.

pronunciation_dictionary_id

string

requis

L’ID du dictionnaire de prononciation.

Informations de réponse

Fichier audio généré Format : binary

ElevenLabs synthèse vocale Multilingual V2

ElevenLabs synthèse vocale Turbo v2

​En-têtes de requête

​Corps de la requête

​Informations de réponse

En-têtes de requête

Corps de la requête

Informations de réponse