Pular para o conteúdo principal
POST
/
v3
/
elevenlabs-scribe-v2
ElevenLabs Conversão de fala em texto V2
curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v2 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'
Transcreve arquivos de áudio ou vídeo. Quando use_multi_channel for true e o áudio enviado tiver múltiplos canais, retorna um objeto ‘transcripts’, com uma transcrição por canal. Caso contrário, retorna um único resultado de transcrição.

Cabeçalhos da solicitação

Content-Type
string
obrigatório
Valores enumerados: application/json
Authorization
string
obrigatório
Formato de autenticação Bearer: Bearer {{API Key}}.

Corpo da solicitação

seed
integer
Se especificado, o sistema fará o possível para amostrar de forma determinística; solicitações com o mesmo seed e os mesmos parâmetros devem retornar o mesmo resultado, mas determinismo absoluto não é garantido. Deve ser um inteiro entre 0 e 2147483647.Intervalo de valores: [0, 2147483647]
diarize
boolean
padrão:false
Se deve marcar o falante atual no arquivo enviado.
file_format
string
padrão:"other"
Formato do áudio de entrada. Pode ser ‘pcm_s16le_16’ ou ‘other’. pcm_s16le_16 exige que o áudio tenha taxa de amostragem de 16kHz, inteiro de 16 bits, mono, formato little-endian, com menor latência em comparação a formas de onda codificadas.Valores opcionais: pcm_s16le_16, other
temperature
number
Controla a aleatoriedade da saída da transcrição. O intervalo de valores é de 0.0 a 2.0; valores mais altos produzem resultados mais diversos e menos determinísticos. Se omitido, será usada a temperatura padrão do modelo selecionado (geralmente 0).Intervalo de valores: [0, 2]
num_speakers
integer
Número máximo de falantes no arquivo enviado. Pode ser usado para auxiliar na diferenciação de falantes; suporta até 32 falantes.Intervalo de valores: [1, 32]
language_code
string
Especifica o código de idioma ISO-639-1 ou ISO-639-3 do arquivo de áudio. Indicar antecipadamente às vezes pode melhorar o desempenho da transcrição. O padrão é null, e o idioma será detectado automaticamente.
tag_audio_events
boolean
padrão:true
Se deve marcar eventos de áudio como (laughter) e (footsteps) na transcrição.
cloud_storage_url
string
obrigatório
Link HTTPS do arquivo a ser transcrito. file e cloud_storage_url são mutuamente exclusivos; um deles deve ser fornecido. O arquivo deve ser acessível via HTTPS e ter menos de 2GB. Qualquer endereço HTTPS válido é aceito, incluindo armazenamento em nuvem (AWS S3, GCS, Cloudflare R2 etc.), CDN ou outras origens HTTPS, com suporte a links pré-assinados com token ou autenticação por parâmetros de consulta de URL.
use_multi_channel
boolean
padrão:false
Se o arquivo de áudio é multicanal e cada canal contém apenas um único falante. Quando habilitado, cada canal será transcrito independentemente e os resultados serão combinados; cada palavra no conteúdo de saída inclui o campo channel_index. Suporta até 5 canais.
diarization_threshold
number
Limiar de diarização. Com valores mais altos, a probabilidade de uma pessoa ser dividida em várias é menor, mas a probabilidade de pessoas diferentes serem mescladas em uma só é maior (menos falantes identificados); com valores mais baixos, a probabilidade de uma pessoa ser dividida em várias aumenta, mas a probabilidade de pessoas diferentes serem mescladas em uma só diminui (mais falantes). Só pode ser definido quando diarize=True e num_speakers=None. O padrão é None, e o limiar será escolhido de acordo com o model id (geralmente 0.22).Intervalo de valores: [0.1, 0.4]
timestamps_granularity
string
padrão:"word"
Granularidade dos timestamps no conteúdo transcrito. ‘word’ fornece timestamps em nível de palavra, e ‘character’ fornece timestamps para cada caractere.Valores opcionais: none, word, character

Informações da resposta

A resposta pode ser um dos seguintes tipos de resposta:
text
string
obrigatório
Texto original transcrito.
words
array
obrigatório
Lista de palavras e suas informações de tempo.
channel_index
integer
Índice do canal correspondente a esta transcrição (válido para áudio multicanal).
language_code
string
obrigatório
Código de idioma detectado (por exemplo, ‘eng’ indica inglês).
transcription_id
string
ID único de transcrição desta resposta.
language_probability
number
obrigatório
Confiança da detecção de idioma (entre 0 e 1).
transcripts
array
obrigatório
Lista de transcrições correspondentes a cada canal de áudio. Cada transcrição contém o texto do canal correspondente e detalhes em nível de palavra.
transcription_id
string
ID único de transcrição desta resposta.