ElevenLabs Conversão de fala em texto V2
Áudio
ElevenLabs Conversão de fala em texto V2
POST
ElevenLabs Conversão de fala em texto V2
Transcreve arquivos de áudio ou vídeo. Quando use_multi_channel for true e o áudio enviado tiver múltiplos canais, retorna um objeto ‘transcripts’, com uma transcrição por canal. Caso contrário, retorna um único resultado de transcrição.
Cabeçalhos da solicitação
Valores enumerados:
application/jsonFormato de autenticação Bearer: Bearer {{API Key}}.
Corpo da solicitação
Se especificado, o sistema fará o possível para amostrar de forma determinística; solicitações com o mesmo seed e os mesmos parâmetros devem retornar o mesmo resultado, mas determinismo absoluto não é garantido. Deve ser um inteiro entre 0 e 2147483647.Intervalo de valores: [0, 2147483647]
Se deve marcar o falante atual no arquivo enviado.
Formato do áudio de entrada. Pode ser ‘pcm_s16le_16’ ou ‘other’. pcm_s16le_16 exige que o áudio tenha taxa de amostragem de 16kHz, inteiro de 16 bits, mono, formato little-endian, com menor latência em comparação a formas de onda codificadas.Valores opcionais:
pcm_s16le_16, otherControla a aleatoriedade da saída da transcrição. O intervalo de valores é de 0.0 a 2.0; valores mais altos produzem resultados mais diversos e menos determinísticos. Se omitido, será usada a temperatura padrão do modelo selecionado (geralmente 0).Intervalo de valores: [0, 2]
Número máximo de falantes no arquivo enviado. Pode ser usado para auxiliar na diferenciação de falantes; suporta até 32 falantes.Intervalo de valores: [1, 32]
Especifica o código de idioma ISO-639-1 ou ISO-639-3 do arquivo de áudio. Indicar antecipadamente às vezes pode melhorar o desempenho da transcrição. O padrão é null, e o idioma será detectado automaticamente.
Se deve marcar eventos de áudio como (laughter) e (footsteps) na transcrição.
Link HTTPS do arquivo a ser transcrito. file e cloud_storage_url são mutuamente exclusivos; um deles deve ser fornecido. O arquivo deve ser acessível via HTTPS e ter menos de 2GB. Qualquer endereço HTTPS válido é aceito, incluindo armazenamento em nuvem (AWS S3, GCS, Cloudflare R2 etc.), CDN ou outras origens HTTPS, com suporte a links pré-assinados com token ou autenticação por parâmetros de consulta de URL.
Se o arquivo de áudio é multicanal e cada canal contém apenas um único falante. Quando habilitado, cada canal será transcrito independentemente e os resultados serão combinados; cada palavra no conteúdo de saída inclui o campo channel_index. Suporta até 5 canais.
Limiar de diarização. Com valores mais altos, a probabilidade de uma pessoa ser dividida em várias é menor, mas a probabilidade de pessoas diferentes serem mescladas em uma só é maior (menos falantes identificados); com valores mais baixos, a probabilidade de uma pessoa ser dividida em várias aumenta, mas a probabilidade de pessoas diferentes serem mescladas em uma só diminui (mais falantes). Só pode ser definido quando diarize=True e num_speakers=None. O padrão é None, e o limiar será escolhido de acordo com o model id (geralmente 0.22).Intervalo de valores: [0.1, 0.4]
Granularidade dos timestamps no conteúdo transcrito. ‘word’ fornece timestamps em nível de palavra, e ‘character’ fornece timestamps para cada caractere.Valores opcionais:
none, word, characterInformações da resposta
A resposta pode ser um dos seguintes tipos de resposta:
Tipo de resposta 1
Tipo de resposta 1
Texto original transcrito.
Lista de palavras e suas informações de tempo.
Índice do canal correspondente a esta transcrição (válido para áudio multicanal).
Código de idioma detectado (por exemplo, ‘eng’ indica inglês).
ID único de transcrição desta resposta.
Confiança da detecção de idioma (entre 0 e 1).