Pular para o conteúdo principal
POST
/
v3
/
elevenlabs-tts-v3
ElevenLabs Texto para fala V3
curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-v3 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "stream": true,
  "voice_id": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'
Converta texto em fala usando a voz de sua escolha e retorne o áudio.

Cabeçalhos da requisição

Content-Type
string
obrigatório
Valores enumerados: application/json
Authorization
string
obrigatório
Formato de autenticação Bearer: Bearer {{API Key}}.

Corpo da requisição

seed
integer
Se especificado, o sistema tentará amostrar de forma determinística. Requisições repetidas com o mesmo seed e parâmetros devem retornar o mesmo resultado, mas a determinismo completo não é garantido.Intervalo de valores: [0, 4294967295]
text
string
obrigatório
O texto a ser convertido em fala.
stream
boolean
Se deve ativar o modo Stream
voice_id
string
obrigatório
O ID da voz a ser usada.
language_code
string
O código do idioma (ISO 639-1) usado para o modelo e a normalização de texto. Se o modelo não oferecer suporte a esse código de idioma, um erro será retornado.
output_format
string
padrão:"mp3_44100_128"
O formato de saída do áudio gerado. O formato é codec_sample_rate_bitrate. A taxa de bits de 192 kbps para MP3 requer uma conta Creator ou superior; a taxa de amostragem de 44,1 kHz para PCM requer uma conta Pro ou superior.Valores opcionais: mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192
use_pvc_as_ivc
boolean
padrão:false
Se true, usa a versão IVC da voz em vez da versão PVC. Esta é uma solução temporária para a maior latência da versão PVC.
voice_settings
object
apply_text_normalization
string
padrão:"auto"
Controla a normalização de texto. ‘auto’ deixa o sistema decidir, ‘on’ sempre normaliza, e ‘off’ pula a normalização.Valores opcionais: auto, on, off
apply_language_text_normalization
boolean
padrão:false
Controla a normalização de texto específica do idioma para alguns idiomas compatíveis, a fim de obter uma pronúncia mais natural. Aviso: pode aumentar significativamente a latência. Atualmente, apenas japonês é compatível.
pronunciation_dictionary_locators
array
Lista de localizadores de dicionário de pronúncia (id, version_id) que devem ser aplicados ao texto. Entram em vigor na ordem. Cada requisição pode ter no máximo 3 localizadores.Comprimento do array: 0 - 3

Informações da resposta

Arquivo de áudio gerado Formato: binary