Pular para o conteúdo principal
POST
/
v3
/
elevenlabs-tts-multilingual-v2
ElevenLabs Texto para fala Multilingual V2
curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-multilingual-v2 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "voice_id": "<string>",
  "next_text": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "previous_text": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "next_request_ids": [
    {}
  ],
  "previous_request_ids": [
    {}
  ],
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'
Converta texto em fala usando a voz de sua escolha e retorne o áudio.

Cabeçalhos da solicitação

Content-Type
string
obrigatório
Valores enumerados: application/json
Authorization
string
obrigatório
Formato de autenticação Bearer: Bearer {{API Key}}.

Corpo da solicitação

seed
integer
Se especificado, o sistema tentará amostrar de forma determinística. Solicitações repetidas com o mesmo seed e os mesmos parâmetros devem retornar o mesmo resultado, mas a determinação completa não é garantida.Intervalo de valores: [0, 4294967295]
text
string
obrigatório
O texto a ser convertido em fala.
voice_id
string
obrigatório
O ID da voz a ser usada.
next_text
string
O texto após o texto da solicitação atual. Usado para melhorar a coerência da fala ao concatenar várias gerações.
language_code
string
Código de idioma (ISO 639-1) usado para o modelo e a normalização de texto. Se o modelo não oferecer suporte a este código de idioma, será retornado um erro.
output_format
string
padrão:"mp3_44100_128"
O formato de saída do áudio gerado. O formato é codec_sample_rate_bitrate. A taxa de bits de 192 kbps para MP3 requer uma conta Creator ou superior, e a taxa de amostragem de 44,1 kHz para PCM requer uma conta Pro ou superior.Valores opcionais: mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192
previous_text
string
O texto antes do texto da solicitação atual. Usado para melhorar a coerência da fala ao concatenar várias gerações.
use_pvc_as_ivc
boolean
padrão:false
Se true, usa a versão IVC da voz em vez da versão PVC. Esta é uma solução temporária para a latência mais alta da versão PVC.
voice_settings
object
next_request_ids
array
Lista de request_id das amostras subsequentes. Usada para manter a coerência da fala ao regenerar amostras. É possível enviar no máximo 3 request_id.Comprimento do array: 0 - 3
previous_request_ids
array
Lista de request_id das amostras geradas antes da geração atual. Pode ser usada para melhorar a coerência da fala. É possível enviar no máximo 3 request_id.Comprimento do array: 0 - 3
apply_text_normalization
string
padrão:"auto"
Controla a normalização de texto. ‘auto’ deixa o sistema decidir, ‘on’ sempre normaliza, e ‘off’ ignora a normalização.Valores opcionais: auto, on, off
apply_language_text_normalization
boolean
padrão:false
Controla a normalização de texto específica de idioma para alguns idiomas compatíveis, a fim de obter uma pronúncia mais natural. Aviso: isso pode aumentar significativamente a latência. Atualmente, há suporte apenas para japonês.
pronunciation_dictionary_locators
array
Lista de localizadores de dicionário de pronúncia (id, version_id) que devem ser aplicados ao texto. Eles são aplicados em ordem. Cada solicitação pode ter no máximo 3 localizadores.Comprimento do array: 0 - 3

Informações da resposta

Arquivo de áudio gerado Formato: binary