ElevenLabs voz a texto V1
Audio
ElevenLabs voz a texto V1
POST
ElevenLabs voz a texto V1
Transcribe archivos de audio o video. Cuando use_multi_channel es true y el audio cargado tiene varios canales, devuelve un objeto ‘transcripts’, con una transcripción por canal. De lo contrario, devuelve un único resultado de transcripción.
Encabezados de solicitud
Valores de enumeración:
application/jsonFormato de autenticación Bearer: Bearer {{API Key}}.
Cuerpo de la solicitud
Si se especifica, el sistema hará todo lo posible por muestrear de forma determinista; las solicitudes con el mismo seed y los mismos parámetros deberían devolver el mismo resultado, pero no se garantiza un determinismo absoluto. Debe ser un entero entre 0 y 2147483647.Rango de valores: [0, 2147483647]
Indica si se debe etiquetar al hablante actual en el archivo cargado.
Formato de audio de entrada. Puede ser ‘pcm_s16le_16’ u ‘other’. pcm_s16le_16 requiere que el audio tenga una frecuencia de muestreo de 16kHz, enteros de 16 bits, mono y formato little-endian; ofrece menor latencia que una forma de onda codificada.Valores posibles:
pcm_s16le_16, otherControla la aleatoriedad de la salida de transcripción. El rango de valores es de 0.0 a 2.0; los valores más altos producen resultados más variados y menos deterministas. Si se omite, se utilizará la temperatura predeterminada del modelo seleccionado (normalmente 0).Rango de valores: [0, 2]
Número máximo de hablantes en el archivo cargado. Puede utilizarse para ayudar a distinguir hablantes; admite hasta 32 hablantes.Rango de valores: [1, 32]
Especifica el código de idioma ISO-639-1 o ISO-639-3 del archivo de audio. Indicarlo de antemano a veces puede mejorar el rendimiento de la transcripción. El valor predeterminado es null, y el idioma se detectará automáticamente.
Indica si se deben etiquetar en la transcripción eventos de audio como (laughter) o (footsteps).
Enlace HTTPS del archivo que se va a transcribir. Debe proporcionarse file o cloud_storage_url. El archivo debe ser accesible mediante HTTPS y tener menos de 2GB; se admite cualquier dirección HTTPS válida, incluido almacenamiento en la nube (AWS S3, GCS, Cloudflare R2, etc.), CDN u otros orígenes HTTPS, así como enlaces prefirmados con token o autenticación mediante parámetros de consulta de URL.
Indica si el archivo de audio es multicanal y cada canal contiene solo un hablante. Al habilitarlo, se transcribe cada canal de forma independiente y se combinan los resultados; cada palabra de la salida incluye el campo channel_index, con soporte para hasta 5 canales.
Umbral de diarización de hablantes. Con un valor alto, disminuye la probabilidad de dividir a una persona en varias, pero aumenta la probabilidad de combinar a distintas personas en una sola (se identifican menos hablantes); con un valor bajo, aumenta la probabilidad de dividir a una persona en varias, pero disminuye la probabilidad de combinar a distintas personas en una sola (más hablantes). Solo se puede establecer cuando diarize=True y num_speakers=None. El valor predeterminado es None, y el umbral se seleccionará según el id del modelo (normalmente 0.22).Rango de valores: [0.1, 0.4]
Granularidad de las marcas de tiempo en el contenido transcrito. ‘word’ proporciona marcas de tiempo a nivel de palabra, y ‘character’ proporciona marcas de tiempo para cada carácter.Valores posibles:
none, word, characterInformación de respuesta
La respuesta puede ser uno de los siguientes tipos de respuesta:
Tipo de respuesta 1
Tipo de respuesta 1
Texto original de la transcripción.
Lista de palabras y su información temporal.
Índice del canal correspondiente a esta transcripción (válido para audio multicanal).
Código de idioma detectado (por ejemplo, ‘eng’ para inglés).
ID único de transcripción de esta respuesta.
Confianza de la detección de idioma (entre 0 y 1).