ElevenLabs Speech-to-Text V1
Áudio
ElevenLabs Speech-to-Text V1
POST
ElevenLabs Speech-to-Text V1
Transcreve arquivos de áudio ou vídeo. Quando use_multi_channel for true e o áudio enviado tiver vários canais, retorna um objeto ‘transcripts’, com uma transcrição por canal. Caso contrário, retorna um único resultado de transcrição.
Cabeçalhos da solicitação
Valores enumerados:
application/jsonFormato de autenticação Bearer: Bearer {{API Key}}.
Corpo da solicitação
Se especificado, o sistema fará o possível para amostrar de forma determinística; solicitações com o mesmo seed e os mesmos parâmetros devem retornar o mesmo resultado, mas a determinismo absoluto não é garantido. Deve ser um inteiro entre 0 e 2147483647.Intervalo de valores: [0, 2147483647]
Indica se deve rotular o falante atual no arquivo enviado.
Formato do áudio de entrada. Pode ser ‘pcm_s16le_16’ ou ‘other’. pcm_s16le_16 exige que o áudio esteja em taxa de amostragem de 16 kHz, inteiro de 16 bits, mono e little-endian, com menor latência em comparação a formas de onda codificadas.Valores possíveis:
pcm_s16le_16, otherControla a aleatoriedade da saída da transcrição. O intervalo é de 0.0 a 2.0; valores mais altos tornam os resultados mais variados e menos determinísticos. Se omitido, será usada a temperatura padrão do modelo selecionado (geralmente 0).Intervalo de valores: [0, 2]
Número máximo de falantes no arquivo enviado. Pode ser usado para auxiliar na diferenciação dos falantes, com suporte a até 32 falantes.Intervalo de valores: [1, 32]
Especifica o código de idioma ISO-639-1 ou ISO-639-3 do arquivo de áudio. Informar antecipadamente às vezes pode melhorar o desempenho da transcrição. O padrão é null, e o idioma será detectado automaticamente.
Indica se eventos de áudio, como (laughter) e (footsteps), devem ser marcados na transcrição.
Link HTTPS do arquivo a ser transcrito. file e cloud_storage_url são mutuamente exclusivos; um dos dois deve ser fornecido. O arquivo deve ser acessível via HTTPS e ter menos de 2 GB. Qualquer endereço HTTPS válido é compatível, incluindo armazenamento em nuvem (AWS S3, GCS, Cloudflare R2 etc.), CDN ou outras origens HTTPS, com suporte a links pré-assinados com token ou autenticação por parâmetros de consulta na URL.
Indica se o arquivo de áudio é multicanal e se cada canal contém apenas um único falante. Quando ativado, cada canal será transcrito de forma independente e os resultados serão combinados; cada palavra no conteúdo de saída incluirá o campo channel_index. Suporta até 5 canais.
Limiar de diarização. Com valores maiores, é menor a probabilidade de uma pessoa ser dividida em várias, mas maior a probabilidade de pessoas diferentes serem mescladas em uma só (menos falantes identificados); com valores menores, aumenta a probabilidade de uma pessoa ser dividida em várias, mas diminui a probabilidade de pessoas diferentes serem mescladas em uma só (mais falantes). Só pode ser definido quando diarize=True e num_speakers=None. O padrão é None, e o limiar será escolhido com base no id do modelo (geralmente 0.22).Intervalo de valores: [0.1, 0.4]
Granularidade dos timestamps no conteúdo da transcrição. ‘word’ fornece timestamps em nível de palavra, enquanto ‘character’ fornece timestamps para cada caractere.Valores possíveis:
none, word, characterInformações da resposta
A resposta pode ser um dos seguintes tipos:
Tipo de resposta 1
Tipo de resposta 1
Texto bruto transcrito.
Lista de palavras e suas informações de tempo.
Índice do canal correspondente a esta transcrição (válido para áudio multicanal).
Código do idioma detectado (por exemplo, ‘eng’ para inglês).
ID único da transcrição desta resposta.
Confiança da detecção de idioma (entre 0 e 1).