ElevenLabs voz a texto V1

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v1 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'

import requests

url = "https://api.highwayapi.ai/v3/elevenlabs-scribe-v1"

payload = {
    "seed": 123,
    "diarize": True,
    "file_format": "<string>",
    "temperature": 123,
    "num_speakers": 123,
    "language_code": "<string>",
    "tag_audio_events": True,
    "cloud_storage_url": "<string>",
    "use_multi_channel": True,
    "diarization_threshold": 123,
    "timestamps_granularity": "<string>"
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    seed: 123,
    diarize: true,
    file_format: '<string>',
    temperature: 123,
    num_speakers: 123,
    language_code: '<string>',
    tag_audio_events: true,
    cloud_storage_url: '<string>',
    use_multi_channel: true,
    diarization_threshold: 123,
    timestamps_granularity: '<string>'
  })
};

fetch('https://api.highwayapi.ai/v3/elevenlabs-scribe-v1', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/elevenlabs-scribe-v1",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'seed' => 123,
    'diarize' => true,
    'file_format' => '<string>',
    'temperature' => 123,
    'num_speakers' => 123,
    'language_code' => '<string>',
    'tag_audio_events' => true,
    'cloud_storage_url' => '<string>',
    'use_multi_channel' => true,
    'diarization_threshold' => 123,
    'timestamps_granularity' => '<string>'
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/elevenlabs-scribe-v1"

	payload := strings.NewReader("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/elevenlabs-scribe-v1")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/elevenlabs-scribe-v1")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}"

response = http.request(request)
puts response.read_body

POST

elevenlabs-scribe-v1

ElevenLabs voz a texto V1

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v1 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'

import requests

url = "https://api.highwayapi.ai/v3/elevenlabs-scribe-v1"

payload = {
    "seed": 123,
    "diarize": True,
    "file_format": "<string>",
    "temperature": 123,
    "num_speakers": 123,
    "language_code": "<string>",
    "tag_audio_events": True,
    "cloud_storage_url": "<string>",
    "use_multi_channel": True,
    "diarization_threshold": 123,
    "timestamps_granularity": "<string>"
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    seed: 123,
    diarize: true,
    file_format: '<string>',
    temperature: 123,
    num_speakers: 123,
    language_code: '<string>',
    tag_audio_events: true,
    cloud_storage_url: '<string>',
    use_multi_channel: true,
    diarization_threshold: 123,
    timestamps_granularity: '<string>'
  })
};

fetch('https://api.highwayapi.ai/v3/elevenlabs-scribe-v1', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/elevenlabs-scribe-v1",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'seed' => 123,
    'diarize' => true,
    'file_format' => '<string>',
    'temperature' => 123,
    'num_speakers' => 123,
    'language_code' => '<string>',
    'tag_audio_events' => true,
    'cloud_storage_url' => '<string>',
    'use_multi_channel' => true,
    'diarization_threshold' => 123,
    'timestamps_granularity' => '<string>'
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/elevenlabs-scribe-v1"

	payload := strings.NewReader("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/elevenlabs-scribe-v1")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/elevenlabs-scribe-v1")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}"

response = http.request(request)
puts response.read_body

Transcribe archivos de audio o video. Cuando use_multi_channel es true y el audio cargado tiene varios canales, devuelve un objeto ‘transcripts’, con una transcripción por canal. De lo contrario, devuelve un único resultado de transcripción.

Encabezados de solicitud

string

requerido

Valores de enumeración: application/json

string

requerido

Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

integer

Si se especifica, el sistema hará todo lo posible por muestrear de forma determinista; las solicitudes con el mismo seed y los mismos parámetros deberían devolver el mismo resultado, pero no se garantiza un determinismo absoluto. Debe ser un entero entre 0 y 2147483647.Rango de valores: [0, 2147483647]

boolean

predeterminado:false

Indica si se debe etiquetar al hablante actual en el archivo cargado.

string

predeterminado:"other"

Formato de audio de entrada. Puede ser ‘pcm_s16le_16’ u ‘other’. pcm_s16le_16 requiere que el audio tenga una frecuencia de muestreo de 16kHz, enteros de 16 bits, mono y formato little-endian; ofrece menor latencia que una forma de onda codificada.Valores posibles: pcm_s16le_16, other

number

Controla la aleatoriedad de la salida de transcripción. El rango de valores es de 0.0 a 2.0; los valores más altos producen resultados más variados y menos deterministas. Si se omite, se utilizará la temperatura predeterminada del modelo seleccionado (normalmente 0).Rango de valores: [0, 2]

integer

Número máximo de hablantes en el archivo cargado. Puede utilizarse para ayudar a distinguir hablantes; admite hasta 32 hablantes.Rango de valores: [1, 32]

string

Especifica el código de idioma ISO-639-1 o ISO-639-3 del archivo de audio. Indicarlo de antemano a veces puede mejorar el rendimiento de la transcripción. El valor predeterminado es null, y el idioma se detectará automáticamente.

boolean

predeterminado:true

Indica si se deben etiquetar en la transcripción eventos de audio como (laughter) o (footsteps).

string

requerido

Enlace HTTPS del archivo que se va a transcribir. Debe proporcionarse file o cloud_storage_url. El archivo debe ser accesible mediante HTTPS y tener menos de 2GB; se admite cualquier dirección HTTPS válida, incluido almacenamiento en la nube (AWS S3, GCS, Cloudflare R2, etc.), CDN u otros orígenes HTTPS, así como enlaces prefirmados con token o autenticación mediante parámetros de consulta de URL.

boolean

predeterminado:false

Indica si el archivo de audio es multicanal y cada canal contiene solo un hablante. Al habilitarlo, se transcribe cada canal de forma independiente y se combinan los resultados; cada palabra de la salida incluye el campo channel_index, con soporte para hasta 5 canales.

number

Umbral de diarización de hablantes. Con un valor alto, disminuye la probabilidad de dividir a una persona en varias, pero aumenta la probabilidad de combinar a distintas personas en una sola (se identifican menos hablantes); con un valor bajo, aumenta la probabilidad de dividir a una persona en varias, pero disminuye la probabilidad de combinar a distintas personas en una sola (más hablantes). Solo se puede establecer cuando diarize=True y num_speakers=None. El valor predeterminado es None, y el umbral se seleccionará según el id del modelo (normalmente 0.22).Rango de valores: [0.1, 0.4]

string

predeterminado:"word"

Granularidad de las marcas de tiempo en el contenido transcrito. ‘word’ proporciona marcas de tiempo a nivel de palabra, y ‘character’ proporciona marcas de tiempo para cada carácter.Valores posibles: none, word, character

Información de respuesta

La respuesta puede ser uno de los siguientes tipos de respuesta:

Tipo de respuesta 1

string

requerido

Texto original de la transcripción.

object[]

requerido

Lista de palabras y su información temporal.

Ocultar properties

number

Hora de finalización de esta palabra o sonido en el audio (en segundos).

string

requerido

Contenido transcrito de la palabra o sonido.

string

requerido

Tipo de esta palabra o sonido. ‘audio_event’ se utiliza para sonidos que no son palabras, como risas o pasos.Valores posibles: word, spacing, audio_event

number

Hora de inicio de esta palabra o sonido en el audio (en segundos).

number

requerido

Logaritmo de la probabilidad al predecir esta palabra. El rango de logprob es [-infinity, 0]; cuanto mayor sea el valor, mayor confianza tendrá el modelo en la predicción.

object[]

Caracteres que componen la palabra y su información temporal correspondiente.

Ocultar properties

number

Hora de finalización del carácter en el audio (en segundos).

string

requerido

Contenido transcrito del carácter.

number

Hora de inicio del carácter en el audio (en segundos).

string

Identificador único del hablante correspondiente a esta palabra.

integer

Índice del canal correspondiente a esta transcripción (válido para audio multicanal).

string

requerido

Código de idioma detectado (por ejemplo, ‘eng’ para inglés).

string

ID único de transcripción de esta respuesta.

number

requerido

Confianza de la detección de idioma (entre 0 y 1).

Tipo de respuesta 2

object[]

requerido

Lista de transcripciones correspondientes a cada canal de audio. Cada transcripción contiene el texto del canal correspondiente y detalles a nivel de palabra.

Ocultar properties

string

requerido

Texto original de la transcripción.

object[]

requerido

Lista de palabras y su información temporal.

Ocultar properties

number

Hora de finalización de esta palabra o sonido en el audio (en segundos).

string

requerido

Contenido transcrito de la palabra o sonido.

string

requerido

Tipo de esta palabra o sonido. ‘audio_event’ se utiliza para sonidos que no son palabras, como risas o pasos.Valores posibles: word, spacing, audio_event

number

Hora de inicio de esta palabra o sonido en el audio (en segundos).

number

requerido

Logaritmo de la probabilidad al predecir esta palabra. El rango de logprob es [-infinity, 0]; cuanto mayor sea el valor, mayor confianza tendrá el modelo en la predicción.

object[]

Caracteres que componen la palabra y su información temporal correspondiente.

Ocultar properties

number

Hora de finalización del carácter en el audio (en segundos).

string

requerido

Contenido transcrito del carácter.

number

Hora de inicio del carácter en el audio (en segundos).

string

Identificador único del hablante correspondiente a esta palabra.

integer

Índice del canal correspondiente a esta transcripción (válido para audio multicanal).

string

requerido

Código de idioma detectado (por ejemplo, ‘eng’ para inglés).

string

ID único de transcripción de esta respuesta.

number

requerido

Confianza de la detección de idioma (entre 0 y 1).

string

ID único de transcripción de esta respuesta.

Clonación rápida de audio MiniMax

ElevenLabs voz a texto V2

Conceptos básicos de API

Modelos de lenguaje

Imágenes

Vídeo

Audio

ElevenLabs voz a texto V1

Encabezados de solicitud

Cuerpo de la solicitud

Información de respuesta

​Encabezados de solicitud

​Cuerpo de la solicitud

​Información de respuesta

Encabezados de solicitud

Cuerpo de la solicitud

Información de respuesta