Saltar al contenido principal
POST
/
v3
/
elevenlabs-scribe-v2
ElevenLabs voz a texto V2
curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v2 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'
Transcribe archivos de audio o video. Cuando use_multi_channel es true y el audio subido tiene varios canales, devuelve un objeto ‘transcripts’, con una transcripción por cada canal. De lo contrario, devuelve un único resultado de transcripción.

Encabezados de la solicitud

Content-Type
string
requerido
Valor enumerado: application/json
Authorization
string
requerido
Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

seed
integer
Si se especifica, el sistema hará todo lo posible por muestrear de forma determinista; las solicitudes con el mismo seed y los mismos parámetros deberían devolver el mismo resultado, aunque no se garantiza un determinismo absoluto. Debe ser un entero entre 0 y 2147483647.Rango de valores: [0, 2147483647]
diarize
boolean
predeterminado:false
Si se debe etiquetar al hablante actual en el archivo subido.
file_format
string
predeterminado:"other"
Formato del audio de entrada. Puede ser ‘pcm_s16le_16’ u ‘other’. pcm_s16le_16 requiere que el audio tenga una frecuencia de muestreo de 16 kHz, enteros de 16 bits, mono y formato little-endian; ofrece menor latencia que una forma de onda codificada.Valores posibles: pcm_s16le_16, other
temperature
number
Controla la aleatoriedad de la salida de la transcripción. El rango de valores es de 0.0 a 2.0; cuanto mayor sea el valor, más variados y menos deterministas serán los resultados. Si se omite, se usará la temperatura predeterminada del modelo seleccionado (normalmente 0).Rango de valores: [0, 2]
num_speakers
integer
Número máximo de hablantes en el archivo subido. Puede usarse para ayudar a distinguir hablantes, con un máximo de 32 hablantes.Rango de valores: [1, 32]
language_code
string
Especifica el código de idioma ISO-639-1 o ISO-639-3 del archivo de audio. Indicarlo de antemano a veces puede mejorar el rendimiento de la transcripción. El valor predeterminado es null, lo que detectará automáticamente el idioma.
tag_audio_events
boolean
predeterminado:true
Si se deben marcar en la transcripción eventos de audio como (laughter), (footsteps), etc.
cloud_storage_url
string
requerido
Enlace HTTPS del archivo que se va a transcribir. Debe proporcionarse uno de file o cloud_storage_url. El archivo debe ser accesible mediante HTTPS y tener menos de 2 GB. Se admite cualquier dirección HTTPS válida, incluido almacenamiento en la nube (AWS S3, GCS, Cloudflare R2, etc.), CDN u otros orígenes HTTPS, así como enlaces prefirmados con token o autenticación mediante parámetros de consulta de URL.
use_multi_channel
boolean
predeterminado:false
Si el archivo de audio es multicanal y cada canal contiene un único hablante. Al habilitarlo, se transcribirá cada canal de forma independiente y se combinarán los resultados; cada palabra del contenido de salida incluirá el campo channel_index. Se admiten hasta 5 canales.
diarization_threshold
number
Umbral de separación de hablantes (diarization). Con valores altos, disminuye la probabilidad de que una persona se divida en varias, pero aumenta la probabilidad de que distintas personas se fusionen en una sola (se identifican menos hablantes); con valores bajos, aumenta la probabilidad de que una persona se divida en varias, pero disminuye la probabilidad de que distintas personas se fusionen en una sola (más hablantes). Solo puede establecerse cuando diarize=True y num_speakers=None. El valor predeterminado es None; el umbral se seleccionará según el id del modelo (normalmente 0.22).Rango de valores: [0.1, 0.4]
timestamps_granularity
string
predeterminado:"word"
Granularidad de las marcas de tiempo en el contenido transcrito. ‘word’ proporciona marcas de tiempo a nivel de palabra; ‘character’ proporciona marcas de tiempo para cada carácter.Valores posibles: none, word, character

Información de respuesta

La respuesta puede ser uno de los siguientes tipos de respuesta:
text
string
requerido
Texto sin procesar de la transcripción.
words
array
requerido
Lista de palabras y su información temporal.
channel_index
integer
Índice del canal correspondiente a esta transcripción (válido para audio multicanal).
language_code
string
requerido
Código de idioma detectado (por ejemplo, ‘eng’ para inglés).
transcription_id
string
ID único de transcripción de esta respuesta.
language_probability
number
requerido
Confianza de la detección de idioma (entre 0 y 1).
transcripts
array
requerido
Lista de transcripciones correspondientes a cada canal de audio. Cada transcripción contiene el texto del canal correspondiente y detalles a nivel de palabra.
transcription_id
string
ID único de transcripción de esta respuesta.