ElevenLabs voz a texto V2
Audio
ElevenLabs voz a texto V2
POST
ElevenLabs voz a texto V2
Transcribe archivos de audio o video. Cuando use_multi_channel es true y el audio subido tiene varios canales, devuelve un objeto ‘transcripts’, con una transcripción por cada canal. De lo contrario, devuelve un único resultado de transcripción.
Encabezados de la solicitud
Valor enumerado:
application/jsonFormato de autenticación Bearer: Bearer {{API Key}}.
Cuerpo de la solicitud
Si se especifica, el sistema hará todo lo posible por muestrear de forma determinista; las solicitudes con el mismo seed y los mismos parámetros deberían devolver el mismo resultado, aunque no se garantiza un determinismo absoluto. Debe ser un entero entre 0 y 2147483647.Rango de valores: [0, 2147483647]
Si se debe etiquetar al hablante actual en el archivo subido.
Formato del audio de entrada. Puede ser ‘pcm_s16le_16’ u ‘other’. pcm_s16le_16 requiere que el audio tenga una frecuencia de muestreo de 16 kHz, enteros de 16 bits, mono y formato little-endian; ofrece menor latencia que una forma de onda codificada.Valores posibles:
pcm_s16le_16, otherControla la aleatoriedad de la salida de la transcripción. El rango de valores es de 0.0 a 2.0; cuanto mayor sea el valor, más variados y menos deterministas serán los resultados. Si se omite, se usará la temperatura predeterminada del modelo seleccionado (normalmente 0).Rango de valores: [0, 2]
Número máximo de hablantes en el archivo subido. Puede usarse para ayudar a distinguir hablantes, con un máximo de 32 hablantes.Rango de valores: [1, 32]
Especifica el código de idioma ISO-639-1 o ISO-639-3 del archivo de audio. Indicarlo de antemano a veces puede mejorar el rendimiento de la transcripción. El valor predeterminado es null, lo que detectará automáticamente el idioma.
Si se deben marcar en la transcripción eventos de audio como (laughter), (footsteps), etc.
Enlace HTTPS del archivo que se va a transcribir. Debe proporcionarse uno de file o cloud_storage_url. El archivo debe ser accesible mediante HTTPS y tener menos de 2 GB. Se admite cualquier dirección HTTPS válida, incluido almacenamiento en la nube (AWS S3, GCS, Cloudflare R2, etc.), CDN u otros orígenes HTTPS, así como enlaces prefirmados con token o autenticación mediante parámetros de consulta de URL.
Si el archivo de audio es multicanal y cada canal contiene un único hablante. Al habilitarlo, se transcribirá cada canal de forma independiente y se combinarán los resultados; cada palabra del contenido de salida incluirá el campo channel_index. Se admiten hasta 5 canales.
Umbral de separación de hablantes (diarization). Con valores altos, disminuye la probabilidad de que una persona se divida en varias, pero aumenta la probabilidad de que distintas personas se fusionen en una sola (se identifican menos hablantes); con valores bajos, aumenta la probabilidad de que una persona se divida en varias, pero disminuye la probabilidad de que distintas personas se fusionen en una sola (más hablantes). Solo puede establecerse cuando diarize=True y num_speakers=None. El valor predeterminado es None; el umbral se seleccionará según el id del modelo (normalmente 0.22).Rango de valores: [0.1, 0.4]
Granularidad de las marcas de tiempo en el contenido transcrito. ‘word’ proporciona marcas de tiempo a nivel de palabra; ‘character’ proporciona marcas de tiempo para cada carácter.Valores posibles:
none, word, characterInformación de respuesta
La respuesta puede ser uno de los siguientes tipos de respuesta:
Tipo de respuesta 1
Tipo de respuesta 1
Texto sin procesar de la transcripción.
Lista de palabras y su información temporal.
Índice del canal correspondiente a esta transcripción (válido para audio multicanal).
Código de idioma detectado (por ejemplo, ‘eng’ para inglés).
ID único de transcripción de esta respuesta.
Confianza de la detección de idioma (entre 0 y 1).