Saltar al contenido principal
POST
/
v3
/
elevenlabs-scribe-v1
ElevenLabs voz a texto V1
curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v1 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'
Transcribe archivos de audio o video. Cuando use_multi_channel es true y el audio cargado tiene varios canales, devuelve un objeto ‘transcripts’, con una transcripción por canal. De lo contrario, devuelve un único resultado de transcripción.

Encabezados de solicitud

Content-Type
string
requerido
Valores de enumeración: application/json
Authorization
string
requerido
Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

seed
integer
Si se especifica, el sistema hará todo lo posible por muestrear de forma determinista; las solicitudes con el mismo seed y los mismos parámetros deberían devolver el mismo resultado, pero no se garantiza un determinismo absoluto. Debe ser un entero entre 0 y 2147483647.Rango de valores: [0, 2147483647]
diarize
boolean
predeterminado:false
Indica si se debe etiquetar al hablante actual en el archivo cargado.
file_format
string
predeterminado:"other"
Formato de audio de entrada. Puede ser ‘pcm_s16le_16’ u ‘other’. pcm_s16le_16 requiere que el audio tenga una frecuencia de muestreo de 16kHz, enteros de 16 bits, mono y formato little-endian; ofrece menor latencia que una forma de onda codificada.Valores posibles: pcm_s16le_16, other
temperature
number
Controla la aleatoriedad de la salida de transcripción. El rango de valores es de 0.0 a 2.0; los valores más altos producen resultados más variados y menos deterministas. Si se omite, se utilizará la temperatura predeterminada del modelo seleccionado (normalmente 0).Rango de valores: [0, 2]
num_speakers
integer
Número máximo de hablantes en el archivo cargado. Puede utilizarse para ayudar a distinguir hablantes; admite hasta 32 hablantes.Rango de valores: [1, 32]
language_code
string
Especifica el código de idioma ISO-639-1 o ISO-639-3 del archivo de audio. Indicarlo de antemano a veces puede mejorar el rendimiento de la transcripción. El valor predeterminado es null, y el idioma se detectará automáticamente.
tag_audio_events
boolean
predeterminado:true
Indica si se deben etiquetar en la transcripción eventos de audio como (laughter) o (footsteps).
cloud_storage_url
string
requerido
Enlace HTTPS del archivo que se va a transcribir. Debe proporcionarse file o cloud_storage_url. El archivo debe ser accesible mediante HTTPS y tener menos de 2GB; se admite cualquier dirección HTTPS válida, incluido almacenamiento en la nube (AWS S3, GCS, Cloudflare R2, etc.), CDN u otros orígenes HTTPS, así como enlaces prefirmados con token o autenticación mediante parámetros de consulta de URL.
use_multi_channel
boolean
predeterminado:false
Indica si el archivo de audio es multicanal y cada canal contiene solo un hablante. Al habilitarlo, se transcribe cada canal de forma independiente y se combinan los resultados; cada palabra de la salida incluye el campo channel_index, con soporte para hasta 5 canales.
diarization_threshold
number
Umbral de diarización de hablantes. Con un valor alto, disminuye la probabilidad de dividir a una persona en varias, pero aumenta la probabilidad de combinar a distintas personas en una sola (se identifican menos hablantes); con un valor bajo, aumenta la probabilidad de dividir a una persona en varias, pero disminuye la probabilidad de combinar a distintas personas en una sola (más hablantes). Solo se puede establecer cuando diarize=True y num_speakers=None. El valor predeterminado es None, y el umbral se seleccionará según el id del modelo (normalmente 0.22).Rango de valores: [0.1, 0.4]
timestamps_granularity
string
predeterminado:"word"
Granularidad de las marcas de tiempo en el contenido transcrito. ‘word’ proporciona marcas de tiempo a nivel de palabra, y ‘character’ proporciona marcas de tiempo para cada carácter.Valores posibles: none, word, character

Información de respuesta

La respuesta puede ser uno de los siguientes tipos de respuesta:
text
string
requerido
Texto original de la transcripción.
words
array
requerido
Lista de palabras y su información temporal.
channel_index
integer
Índice del canal correspondiente a esta transcripción (válido para audio multicanal).
language_code
string
requerido
Código de idioma detectado (por ejemplo, ‘eng’ para inglés).
transcription_id
string
ID único de transcripción de esta respuesta.
language_probability
number
requerido
Confianza de la detección de idioma (entre 0 y 1).
transcripts
array
requerido
Lista de transcripciones correspondientes a cada canal de audio. Cada transcripción contiene el texto del canal correspondiente y detalles a nivel de palabra.
transcription_id
string
ID único de transcripción de esta respuesta.