ElevenLabs Texto para fala Flash V2
Áudio
ElevenLabs Texto para fala Flash V2
POST
ElevenLabs Texto para fala Flash V2
Converta texto em fala usando a voz de sua escolha e retorne o áudio.
Cabeçalhos da solicitação
Valores enumerados:
application/jsonFormato de autenticação Bearer: Bearer {{API Key}}.
Corpo da solicitação
Se especificado, o sistema tentará amostrar de forma determinística. Solicitações repetidas com o mesmo seed e os mesmos parâmetros devem retornar o mesmo resultado, mas a determinismo total não é garantido.Intervalo de valores: [0, 4294967295]
O texto a ser convertido em fala.
Se deve ativar o modo Stream
O ID da voz a ser usada.
O texto após o texto da solicitação atual. Usado para melhorar a continuidade da fala ao concatenar várias gerações.
O código de idioma (ISO 639-1) usado para o modelo e a normalização de texto. Se o modelo não oferecer suporte a esse código de idioma, um erro será retornado.
O formato de saída do áudio gerado. O formato é codec_sample_rate_bitrate. A taxa de bits de 192kbps para MP3 exige uma conta Creator ou superior, e a taxa de amostragem de 44,1kHz para PCM exige uma conta Pro ou superior.Valores opcionais:
mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192O texto antes do texto da solicitação atual. Usado para melhorar a continuidade da fala ao concatenar várias gerações.
Se for true, use a versão IVC da voz em vez da versão PVC. Esta é uma solução temporária para a maior latência da versão PVC.
Lista de request_id das amostras subsequentes. Usada para manter a continuidade da fala ao gerar novamente amostras. É possível enviar no máximo 3 request_id.Comprimento do array: 0 - 3
Lista de request_id das amostras geradas antes da geração atual. Pode ser usada para melhorar a continuidade da fala. É possível enviar no máximo 3 request_id.Comprimento do array: 0 - 3
Controla a normalização de texto. ‘auto’ é decidido pelo sistema, ‘on’ sempre normaliza, e ‘off’ ignora a normalização.Valores opcionais:
auto, on, offControla a normalização de texto específica do idioma para alguns idiomas compatíveis, a fim de obter uma pronúncia mais natural. Aviso: pode aumentar significativamente a latência. Atualmente, apenas japonês é compatível.
Lista de localizadores de dicionário de pronúncia (id, version_id) que devem ser aplicados ao texto. Aplicados em ordem. Cada solicitação pode ter no máximo 3 localizadores.Comprimento do array: 0 - 3
Informações da resposta
Arquivo de áudio gerado Formato:binary