ElevenLabs voz a texto V2

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v2 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'

import requests

url = "https://api.highwayapi.ai/v3/elevenlabs-scribe-v2"

payload = {
    "seed": 123,
    "diarize": True,
    "file_format": "<string>",
    "temperature": 123,
    "num_speakers": 123,
    "language_code": "<string>",
    "tag_audio_events": True,
    "cloud_storage_url": "<string>",
    "use_multi_channel": True,
    "diarization_threshold": 123,
    "timestamps_granularity": "<string>"
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    seed: 123,
    diarize: true,
    file_format: '<string>',
    temperature: 123,
    num_speakers: 123,
    language_code: '<string>',
    tag_audio_events: true,
    cloud_storage_url: '<string>',
    use_multi_channel: true,
    diarization_threshold: 123,
    timestamps_granularity: '<string>'
  })
};

fetch('https://api.highwayapi.ai/v3/elevenlabs-scribe-v2', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/elevenlabs-scribe-v2",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'seed' => 123,
    'diarize' => true,
    'file_format' => '<string>',
    'temperature' => 123,
    'num_speakers' => 123,
    'language_code' => '<string>',
    'tag_audio_events' => true,
    'cloud_storage_url' => '<string>',
    'use_multi_channel' => true,
    'diarization_threshold' => 123,
    'timestamps_granularity' => '<string>'
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/elevenlabs-scribe-v2"

	payload := strings.NewReader("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/elevenlabs-scribe-v2")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/elevenlabs-scribe-v2")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}"

response = http.request(request)
puts response.read_body

POST

elevenlabs-scribe-v2

ElevenLabs voz a texto V2

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v2 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'

import requests

url = "https://api.highwayapi.ai/v3/elevenlabs-scribe-v2"

payload = {
    "seed": 123,
    "diarize": True,
    "file_format": "<string>",
    "temperature": 123,
    "num_speakers": 123,
    "language_code": "<string>",
    "tag_audio_events": True,
    "cloud_storage_url": "<string>",
    "use_multi_channel": True,
    "diarization_threshold": 123,
    "timestamps_granularity": "<string>"
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    seed: 123,
    diarize: true,
    file_format: '<string>',
    temperature: 123,
    num_speakers: 123,
    language_code: '<string>',
    tag_audio_events: true,
    cloud_storage_url: '<string>',
    use_multi_channel: true,
    diarization_threshold: 123,
    timestamps_granularity: '<string>'
  })
};

fetch('https://api.highwayapi.ai/v3/elevenlabs-scribe-v2', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/elevenlabs-scribe-v2",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'seed' => 123,
    'diarize' => true,
    'file_format' => '<string>',
    'temperature' => 123,
    'num_speakers' => 123,
    'language_code' => '<string>',
    'tag_audio_events' => true,
    'cloud_storage_url' => '<string>',
    'use_multi_channel' => true,
    'diarization_threshold' => 123,
    'timestamps_granularity' => '<string>'
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/elevenlabs-scribe-v2"

	payload := strings.NewReader("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/elevenlabs-scribe-v2")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/elevenlabs-scribe-v2")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}"

response = http.request(request)
puts response.read_body

Transcribe archivos de audio o video. Cuando use_multi_channel es true y el audio subido tiene varios canales, devuelve un objeto ‘transcripts’, con una transcripción por cada canal. De lo contrario, devuelve un único resultado de transcripción.

Encabezados de la solicitud

string

requerido

Valor enumerado: application/json

string

requerido

Formato de autenticación Bearer: Bearer {{API Key}}.

Cuerpo de la solicitud

integer

Si se especifica, el sistema hará todo lo posible por muestrear de forma determinista; las solicitudes con el mismo seed y los mismos parámetros deberían devolver el mismo resultado, aunque no se garantiza un determinismo absoluto. Debe ser un entero entre 0 y 2147483647.Rango de valores: [0, 2147483647]

boolean

predeterminado:false

Si se debe etiquetar al hablante actual en el archivo subido.

string

predeterminado:"other"

Formato del audio de entrada. Puede ser ‘pcm_s16le_16’ u ‘other’. pcm_s16le_16 requiere que el audio tenga una frecuencia de muestreo de 16 kHz, enteros de 16 bits, mono y formato little-endian; ofrece menor latencia que una forma de onda codificada.Valores posibles: pcm_s16le_16, other

number

Controla la aleatoriedad de la salida de la transcripción. El rango de valores es de 0.0 a 2.0; cuanto mayor sea el valor, más variados y menos deterministas serán los resultados. Si se omite, se usará la temperatura predeterminada del modelo seleccionado (normalmente 0).Rango de valores: [0, 2]

integer

Número máximo de hablantes en el archivo subido. Puede usarse para ayudar a distinguir hablantes, con un máximo de 32 hablantes.Rango de valores: [1, 32]

string

Especifica el código de idioma ISO-639-1 o ISO-639-3 del archivo de audio. Indicarlo de antemano a veces puede mejorar el rendimiento de la transcripción. El valor predeterminado es null, lo que detectará automáticamente el idioma.

boolean

predeterminado:true

Si se deben marcar en la transcripción eventos de audio como (laughter), (footsteps), etc.

string

requerido

Enlace HTTPS del archivo que se va a transcribir. Debe proporcionarse uno de file o cloud_storage_url. El archivo debe ser accesible mediante HTTPS y tener menos de 2 GB. Se admite cualquier dirección HTTPS válida, incluido almacenamiento en la nube (AWS S3, GCS, Cloudflare R2, etc.), CDN u otros orígenes HTTPS, así como enlaces prefirmados con token o autenticación mediante parámetros de consulta de URL.

boolean

predeterminado:false

Si el archivo de audio es multicanal y cada canal contiene un único hablante. Al habilitarlo, se transcribirá cada canal de forma independiente y se combinarán los resultados; cada palabra del contenido de salida incluirá el campo channel_index. Se admiten hasta 5 canales.

number

Umbral de separación de hablantes (diarization). Con valores altos, disminuye la probabilidad de que una persona se divida en varias, pero aumenta la probabilidad de que distintas personas se fusionen en una sola (se identifican menos hablantes); con valores bajos, aumenta la probabilidad de que una persona se divida en varias, pero disminuye la probabilidad de que distintas personas se fusionen en una sola (más hablantes). Solo puede establecerse cuando diarize=True y num_speakers=None. El valor predeterminado es None; el umbral se seleccionará según el id del modelo (normalmente 0.22).Rango de valores: [0.1, 0.4]

string

predeterminado:"word"

Granularidad de las marcas de tiempo en el contenido transcrito. ‘word’ proporciona marcas de tiempo a nivel de palabra; ‘character’ proporciona marcas de tiempo para cada carácter.Valores posibles: none, word, character

Información de respuesta

La respuesta puede ser uno de los siguientes tipos de respuesta:

Tipo de respuesta 1

string

requerido

Texto sin procesar de la transcripción.

object[]

requerido

Lista de palabras y su información temporal.

Ocultar propiedades

number

Hora de finalización de esta palabra o sonido en el audio (en segundos).

string

requerido

Contenido de la palabra o sonido transcrito.

string

requerido

Tipo de esta palabra o sonido. ‘audio_event’ se usa para sonidos que no son palabras, como risas o pasos.Valores posibles: word, spacing, audio_event

number

Hora de inicio de esta palabra o sonido en el audio (en segundos).

number

requerido

Logaritmo de la probabilidad al predecir esta palabra. El rango de logprob es [-infinity, 0]; un valor más alto indica que el modelo tiene más confianza en su predicción.

object[]

Caracteres que componen la palabra y su información temporal correspondiente.

Ocultar propiedades

number

Hora de finalización del carácter en el audio (en segundos).

string

requerido

Contenido del carácter transcrito.

number

Hora de inicio del carácter en el audio (en segundos).

string

Identificador único del hablante correspondiente a esta palabra.

integer

Índice del canal correspondiente a esta transcripción (válido para audio multicanal).

string

requerido

Código de idioma detectado (por ejemplo, ‘eng’ para inglés).

string

ID único de transcripción de esta respuesta.

number

requerido

Confianza de la detección de idioma (entre 0 y 1).

Tipo de respuesta 2

object[]

requerido

Lista de transcripciones correspondientes a cada canal de audio. Cada transcripción contiene el texto del canal correspondiente y detalles a nivel de palabra.

Ocultar propiedades

string

requerido

Texto sin procesar de la transcripción.

object[]

requerido

Lista de palabras y su información temporal.

Ocultar propiedades

number

Hora de finalización de esta palabra o sonido en el audio (en segundos).

string

requerido

Contenido de la palabra o sonido transcrito.

string

requerido

Tipo de esta palabra o sonido. ‘audio_event’ se usa para sonidos que no son palabras, como risas o pasos.Valores posibles: word, spacing, audio_event

number

Hora de inicio de esta palabra o sonido en el audio (en segundos).

number

requerido

Logaritmo de la probabilidad al predecir esta palabra. El rango de logprob es [-infinity, 0]; un valor más alto indica que el modelo tiene más confianza en su predicción.

object[]

Caracteres que componen la palabra y su información temporal correspondiente.

Ocultar propiedades

number

Hora de finalización del carácter en el audio (en segundos).

string

requerido

Contenido del carácter transcrito.

number

Hora de inicio del carácter en el audio (en segundos).

string

Identificador único del hablante correspondiente a esta palabra.

integer

Índice del canal correspondiente a esta transcripción (válido para audio multicanal).

string

requerido

Código de idioma detectado (por ejemplo, ‘eng’ para inglés).

string

ID único de transcripción de esta respuesta.

number

requerido

Confianza de la detección de idioma (entre 0 y 1).

string

ID único de transcripción de esta respuesta.

ElevenLabs voz a texto V1

ElevenLabs texto a voz Flash V2

Conceptos básicos de API

Modelos de lenguaje

Imágenes

Vídeo

Audio

ElevenLabs voz a texto V2

Encabezados de la solicitud

Cuerpo de la solicitud

Información de respuesta

​Encabezados de la solicitud

​Cuerpo de la solicitud

​Información de respuesta

Encabezados de la solicitud

Cuerpo de la solicitud

Información de respuesta