ElevenLabs Speech-to-Text V1

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v1 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'

import requests

url = "https://api.highwayapi.ai/v3/elevenlabs-scribe-v1"

payload = {
    "seed": 123,
    "diarize": True,
    "file_format": "<string>",
    "temperature": 123,
    "num_speakers": 123,
    "language_code": "<string>",
    "tag_audio_events": True,
    "cloud_storage_url": "<string>",
    "use_multi_channel": True,
    "diarization_threshold": 123,
    "timestamps_granularity": "<string>"
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    seed: 123,
    diarize: true,
    file_format: '<string>',
    temperature: 123,
    num_speakers: 123,
    language_code: '<string>',
    tag_audio_events: true,
    cloud_storage_url: '<string>',
    use_multi_channel: true,
    diarization_threshold: 123,
    timestamps_granularity: '<string>'
  })
};

fetch('https://api.highwayapi.ai/v3/elevenlabs-scribe-v1', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/elevenlabs-scribe-v1",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'seed' => 123,
    'diarize' => true,
    'file_format' => '<string>',
    'temperature' => 123,
    'num_speakers' => 123,
    'language_code' => '<string>',
    'tag_audio_events' => true,
    'cloud_storage_url' => '<string>',
    'use_multi_channel' => true,
    'diarization_threshold' => 123,
    'timestamps_granularity' => '<string>'
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/elevenlabs-scribe-v1"

	payload := strings.NewReader("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/elevenlabs-scribe-v1")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/elevenlabs-scribe-v1")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}"

response = http.request(request)
puts response.read_body

POST

elevenlabs-scribe-v1

ElevenLabs Speech-to-Text V1

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v1 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'

import requests

url = "https://api.highwayapi.ai/v3/elevenlabs-scribe-v1"

payload = {
    "seed": 123,
    "diarize": True,
    "file_format": "<string>",
    "temperature": 123,
    "num_speakers": 123,
    "language_code": "<string>",
    "tag_audio_events": True,
    "cloud_storage_url": "<string>",
    "use_multi_channel": True,
    "diarization_threshold": 123,
    "timestamps_granularity": "<string>"
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    seed: 123,
    diarize: true,
    file_format: '<string>',
    temperature: 123,
    num_speakers: 123,
    language_code: '<string>',
    tag_audio_events: true,
    cloud_storage_url: '<string>',
    use_multi_channel: true,
    diarization_threshold: 123,
    timestamps_granularity: '<string>'
  })
};

fetch('https://api.highwayapi.ai/v3/elevenlabs-scribe-v1', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/elevenlabs-scribe-v1",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'seed' => 123,
    'diarize' => true,
    'file_format' => '<string>',
    'temperature' => 123,
    'num_speakers' => 123,
    'language_code' => '<string>',
    'tag_audio_events' => true,
    'cloud_storage_url' => '<string>',
    'use_multi_channel' => true,
    'diarization_threshold' => 123,
    'timestamps_granularity' => '<string>'
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/elevenlabs-scribe-v1"

	payload := strings.NewReader("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/elevenlabs-scribe-v1")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/elevenlabs-scribe-v1")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}"

response = http.request(request)
puts response.read_body

Transkribiert Audio- oder Videodateien. Wenn use_multi_channel auf true gesetzt ist und die hochgeladene Audiodatei mehrere Kanäle hat, wird ein ‘transcripts’-Objekt zurückgegeben, mit einer Transkription pro Kanal. Andernfalls wird ein einzelnes Transkriptionsergebnis zurückgegeben.

Anfrageheader

string

erforderlich

Enumerationswert: application/json

string

erforderlich

Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragetext

integer

Wenn angegeben, bemüht sich das System um deterministisches Sampling. Anfragen mit demselben seed und denselben Parametern sollten dasselbe Ergebnis zurückgeben, absolute Deterministik wird jedoch nicht garantiert. Muss eine Ganzzahl zwischen 0 und 2147483647 sein.Wertebereich: [0, 2147483647]

boolean

Standard:false

Ob der aktuelle Sprecher in der hochgeladenen Datei markiert werden soll.

string

Standard:"other"

Eingabe-Audioformat. Möglich sind ‘pcm_s16le_16’ oder ‘other’. pcm_s16le_16 erfordert Audio mit 16 kHz Abtastrate, 16-Bit-Ganzzahl, Mono und Little-Endian-Format und hat im Vergleich zu codierten Wellenformen eine geringere Latenz.Mögliche Werte: pcm_s16le_16, other

number

Steuert die Zufälligkeit der Transkriptionsausgabe. Der Wertebereich liegt bei 0.0 bis 2.0; je höher der Wert, desto vielfältiger und weniger deterministisch sind die Ergebnisse. Wenn ausgelassen, wird die Standardtemperatur des ausgewählten Modells verwendet (normalerweise 0).Wertebereich: [0, 2]

integer

Die maximale Anzahl der Sprecher in der hochgeladenen Datei. Kann verwendet werden, um die Sprechertrennung zu unterstützen; unterstützt werden bis zu 32 Sprecher.Wertebereich: [1, 32]

string

Gibt den ISO-639-1- oder ISO-639-3-Sprachcode der Audiodatei an. Eine vorherige Angabe kann die Transkriptionsleistung manchmal verbessern. Standardmäßig null; die Sprache wird automatisch erkannt.

boolean

Standard:true

Ob Audioereignisse wie (laughter) oder (footsteps) in der Transkription markiert werden sollen.

string

erforderlich

HTTPS-Link zur zu transkribierenden Datei. Genau eines von file und cloud_storage_url muss angegeben werden. Die Datei muss über HTTPS erreichbar und kleiner als 2 GB sein. Unterstützt werden alle gültigen HTTPS-Adressen, einschließlich Cloud-Speicher (AWS S3, GCS, Cloudflare R2 usw.), CDN oder andere HTTPS-Quellen sowie vorsignierte Links mit Token oder Authentifizierung über URL-Abfrageparameter.

boolean

Standard:false

Ob die Audiodatei mehrkanalig ist und jeder Kanal nur einen einzelnen Sprecher enthält. Nach der Aktivierung wird jeder Kanal unabhängig transkribiert und das Ergebnis zusammengeführt; jedes Wort in der Ausgabe enthält ein channel_index-Feld. Unterstützt werden bis zu 5 Kanäle.

number

Schwellenwert für die Sprechertrennung (diarization). Bei höheren Werten ist die Wahrscheinlichkeit geringer, dass eine Person in mehrere Personen aufgeteilt wird, aber höher, dass verschiedene Personen zu einer Person zusammengeführt werden (weniger erkannte Sprecher); bei niedrigeren Werten steigt die Wahrscheinlichkeit, dass eine Person in mehrere Personen aufgeteilt wird, während die Wahrscheinlichkeit sinkt, dass verschiedene Personen zusammengeführt werden (mehr Sprecher). Kann nur gesetzt werden, wenn diarize=True und num_speakers=None ist. Standardmäßig None; der Schwellenwert wird anhand der Modell-id gewählt (normalerweise 0.22).Wertebereich: [0.1, 0.4]

string

Standard:"word"

Granularität der Zeitstempel im Transkriptionsinhalt. ‘word’ stellt Zeitstempel auf Wortebene bereit, ‘character’ stellt Zeitstempel für jedes Zeichen bereit.Mögliche Werte: none, word, character

Antwortinformationen

Die Antwort kann einem der folgenden Antworttypen entsprechen:

Antworttyp 1

string

erforderlich

Der ursprüngliche transkribierte Text.

object[]

erforderlich

Liste der Wörter und ihrer Zeitinformationen.

Ausblenden properties

number

Endzeit dieses Wortes oder Geräuschs in der Audiodatei (in Sekunden).

string

erforderlich

Der transkribierte Wort- oder Geräuschinhalt.

string

erforderlich

Der Typ dieses Wortes oder Geräuschs. ‘audio_event’ wird für Nicht-Wort-Geräusche wie Lachen oder Schritte usw. verwendet.Mögliche Werte: word, spacing, audio_event

number

Startzeit dieses Wortes oder Geräuschs in der Audiodatei (in Sekunden).

number

erforderlich

Der Logarithmus der Wahrscheinlichkeit bei der Vorhersage dieses Wortes. Der Wertebereich von logprob ist [-infinity, 0]; je höher der Wert, desto sicherer ist die Vorhersage des Modells.

object[]

Die Zeichen, aus denen das Wort besteht, und ihre zugehörigen Zeitinformationen.

Ausblenden properties

number

Endzeit des Zeichens in der Audiodatei (in Sekunden).

string

erforderlich

Der transkribierte Zeicheninhalt.

number

Startzeit des Zeichens in der Audiodatei (in Sekunden).

string

Die eindeutige Kennung des Sprechers, der diesem Wort entspricht.

integer

Der Kanalindex, dem diese Transkription entspricht (gültig bei mehrkanaligem Audio).

string

erforderlich

Der erkannte Sprachcode (z. B. ‘eng’ für Englisch).

string

Die eindeutige Transkriptions-ID dieser Antwort.

number

erforderlich

Konfidenz der Spracherkennung (zwischen 0 und 1).

Antworttyp 2

object[]

erforderlich

Liste der Transkriptionen für jeden Audiokanal. Jede Transkription enthält den Text des jeweiligen Kanals sowie detaillierte Informationen auf Wortebene.

Ausblenden properties

string

erforderlich

Der ursprüngliche transkribierte Text.

object[]

erforderlich

Liste der Wörter und ihrer Zeitinformationen.

Ausblenden properties

number

Endzeit dieses Wortes oder Geräuschs in der Audiodatei (in Sekunden).

string

erforderlich

Der transkribierte Wort- oder Geräuschinhalt.

string

erforderlich

Der Typ dieses Wortes oder Geräuschs. ‘audio_event’ wird für Nicht-Wort-Geräusche wie Lachen oder Schritte usw. verwendet.Mögliche Werte: word, spacing, audio_event

number

Startzeit dieses Wortes oder Geräuschs in der Audiodatei (in Sekunden).

number

erforderlich

Der Logarithmus der Wahrscheinlichkeit bei der Vorhersage dieses Wortes. Der Wertebereich von logprob ist [-infinity, 0]; je höher der Wert, desto sicherer ist die Vorhersage des Modells.

object[]

Die Zeichen, aus denen das Wort besteht, und ihre zugehörigen Zeitinformationen.

Ausblenden properties

number

Endzeit des Zeichens in der Audiodatei (in Sekunden).

string

erforderlich

Der transkribierte Zeicheninhalt.

number

Startzeit des Zeichens in der Audiodatei (in Sekunden).

string

Die eindeutige Kennung des Sprechers, der diesem Wort entspricht.

integer

Der Kanalindex, dem diese Transkription entspricht (gültig bei mehrkanaligem Audio).

string

erforderlich

Der erkannte Sprachcode (z. B. ‘eng’ für Englisch).

string

Die eindeutige Transkriptions-ID dieser Antwort.

number

erforderlich

Konfidenz der Spracherkennung (zwischen 0 und 1).

string

Die eindeutige Transkriptions-ID dieser Antwort.

MiniMax Audio-Schnellklonen

Zurück

ElevenLabs Sprache-zu-Text V2

Weiter

API-Grundlagen

Große Sprachmodelle

Bilder

Video

Audio

ElevenLabs Speech-to-Text V1

Anfrageheader

Anfragetext

Antwortinformationen

​Anfrageheader

​Anfragetext

​Antwortinformationen

Anfrageheader

Anfragetext

Antwortinformationen