Pular para o conteúdo principal
POST
/
v3
/
elevenlabs-scribe-v1
ElevenLabs Speech-to-Text V1
curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v1 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'
Transcreve arquivos de áudio ou vídeo. Quando use_multi_channel for true e o áudio enviado tiver vários canais, retorna um objeto ‘transcripts’, com uma transcrição por canal. Caso contrário, retorna um único resultado de transcrição.

Cabeçalhos da solicitação

Content-Type
string
obrigatório
Valores enumerados: application/json
Authorization
string
obrigatório
Formato de autenticação Bearer: Bearer {{API Key}}.

Corpo da solicitação

seed
integer
Se especificado, o sistema fará o possível para amostrar de forma determinística; solicitações com o mesmo seed e os mesmos parâmetros devem retornar o mesmo resultado, mas a determinismo absoluto não é garantido. Deve ser um inteiro entre 0 e 2147483647.Intervalo de valores: [0, 2147483647]
diarize
boolean
padrão:false
Indica se deve rotular o falante atual no arquivo enviado.
file_format
string
padrão:"other"
Formato do áudio de entrada. Pode ser ‘pcm_s16le_16’ ou ‘other’. pcm_s16le_16 exige que o áudio esteja em taxa de amostragem de 16 kHz, inteiro de 16 bits, mono e little-endian, com menor latência em comparação a formas de onda codificadas.Valores possíveis: pcm_s16le_16, other
temperature
number
Controla a aleatoriedade da saída da transcrição. O intervalo é de 0.0 a 2.0; valores mais altos tornam os resultados mais variados e menos determinísticos. Se omitido, será usada a temperatura padrão do modelo selecionado (geralmente 0).Intervalo de valores: [0, 2]
num_speakers
integer
Número máximo de falantes no arquivo enviado. Pode ser usado para auxiliar na diferenciação dos falantes, com suporte a até 32 falantes.Intervalo de valores: [1, 32]
language_code
string
Especifica o código de idioma ISO-639-1 ou ISO-639-3 do arquivo de áudio. Informar antecipadamente às vezes pode melhorar o desempenho da transcrição. O padrão é null, e o idioma será detectado automaticamente.
tag_audio_events
boolean
padrão:true
Indica se eventos de áudio, como (laughter) e (footsteps), devem ser marcados na transcrição.
cloud_storage_url
string
obrigatório
Link HTTPS do arquivo a ser transcrito. file e cloud_storage_url são mutuamente exclusivos; um dos dois deve ser fornecido. O arquivo deve ser acessível via HTTPS e ter menos de 2 GB. Qualquer endereço HTTPS válido é compatível, incluindo armazenamento em nuvem (AWS S3, GCS, Cloudflare R2 etc.), CDN ou outras origens HTTPS, com suporte a links pré-assinados com token ou autenticação por parâmetros de consulta na URL.
use_multi_channel
boolean
padrão:false
Indica se o arquivo de áudio é multicanal e se cada canal contém apenas um único falante. Quando ativado, cada canal será transcrito de forma independente e os resultados serão combinados; cada palavra no conteúdo de saída incluirá o campo channel_index. Suporta até 5 canais.
diarization_threshold
number
Limiar de diarização. Com valores maiores, é menor a probabilidade de uma pessoa ser dividida em várias, mas maior a probabilidade de pessoas diferentes serem mescladas em uma só (menos falantes identificados); com valores menores, aumenta a probabilidade de uma pessoa ser dividida em várias, mas diminui a probabilidade de pessoas diferentes serem mescladas em uma só (mais falantes). Só pode ser definido quando diarize=True e num_speakers=None. O padrão é None, e o limiar será escolhido com base no id do modelo (geralmente 0.22).Intervalo de valores: [0.1, 0.4]
timestamps_granularity
string
padrão:"word"
Granularidade dos timestamps no conteúdo da transcrição. ‘word’ fornece timestamps em nível de palavra, enquanto ‘character’ fornece timestamps para cada caractere.Valores possíveis: none, word, character

Informações da resposta

A resposta pode ser um dos seguintes tipos:
text
string
obrigatório
Texto bruto transcrito.
words
array
obrigatório
Lista de palavras e suas informações de tempo.
channel_index
integer
Índice do canal correspondente a esta transcrição (válido para áudio multicanal).
language_code
string
obrigatório
Código do idioma detectado (por exemplo, ‘eng’ para inglês).
transcription_id
string
ID único da transcrição desta resposta.
language_probability
number
obrigatório
Confiança da detecção de idioma (entre 0 e 1).
transcripts
array
obrigatório
Lista de transcrições correspondente a cada canal de áudio. Cada transcrição inclui o texto do canal correspondente e detalhes em nível de palavra.
transcription_id
string
ID único da transcrição desta resposta.