ElevenLabs Sprache-zu-Text V2

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v2 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'

import requests

url = "https://api.highwayapi.ai/v3/elevenlabs-scribe-v2"

payload = {
    "seed": 123,
    "diarize": True,
    "file_format": "<string>",
    "temperature": 123,
    "num_speakers": 123,
    "language_code": "<string>",
    "tag_audio_events": True,
    "cloud_storage_url": "<string>",
    "use_multi_channel": True,
    "diarization_threshold": 123,
    "timestamps_granularity": "<string>"
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    seed: 123,
    diarize: true,
    file_format: '<string>',
    temperature: 123,
    num_speakers: 123,
    language_code: '<string>',
    tag_audio_events: true,
    cloud_storage_url: '<string>',
    use_multi_channel: true,
    diarization_threshold: 123,
    timestamps_granularity: '<string>'
  })
};

fetch('https://api.highwayapi.ai/v3/elevenlabs-scribe-v2', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/elevenlabs-scribe-v2",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'seed' => 123,
    'diarize' => true,
    'file_format' => '<string>',
    'temperature' => 123,
    'num_speakers' => 123,
    'language_code' => '<string>',
    'tag_audio_events' => true,
    'cloud_storage_url' => '<string>',
    'use_multi_channel' => true,
    'diarization_threshold' => 123,
    'timestamps_granularity' => '<string>'
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/elevenlabs-scribe-v2"

	payload := strings.NewReader("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/elevenlabs-scribe-v2")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/elevenlabs-scribe-v2")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}"

response = http.request(request)
puts response.read_body

POST

elevenlabs-scribe-v2

ElevenLabs Sprache-zu-Text V2

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v2 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'

import requests

url = "https://api.highwayapi.ai/v3/elevenlabs-scribe-v2"

payload = {
    "seed": 123,
    "diarize": True,
    "file_format": "<string>",
    "temperature": 123,
    "num_speakers": 123,
    "language_code": "<string>",
    "tag_audio_events": True,
    "cloud_storage_url": "<string>",
    "use_multi_channel": True,
    "diarization_threshold": 123,
    "timestamps_granularity": "<string>"
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    seed: 123,
    diarize: true,
    file_format: '<string>',
    temperature: 123,
    num_speakers: 123,
    language_code: '<string>',
    tag_audio_events: true,
    cloud_storage_url: '<string>',
    use_multi_channel: true,
    diarization_threshold: 123,
    timestamps_granularity: '<string>'
  })
};

fetch('https://api.highwayapi.ai/v3/elevenlabs-scribe-v2', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/elevenlabs-scribe-v2",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'seed' => 123,
    'diarize' => true,
    'file_format' => '<string>',
    'temperature' => 123,
    'num_speakers' => 123,
    'language_code' => '<string>',
    'tag_audio_events' => true,
    'cloud_storage_url' => '<string>',
    'use_multi_channel' => true,
    'diarization_threshold' => 123,
    'timestamps_granularity' => '<string>'
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/elevenlabs-scribe-v2"

	payload := strings.NewReader("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/elevenlabs-scribe-v2")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/elevenlabs-scribe-v2")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}"

response = http.request(request)
puts response.read_body

Transkribiert Audio- oder Videodateien. Wenn use_multi_channel true ist und die hochgeladene Audiodatei mehrere Kanäle hat, wird ein ‘transcripts’-Objekt zurückgegeben, mit einer Transkription pro Kanal. Andernfalls wird ein einzelnes Transkriptionsergebnis zurückgegeben.

Anfrageheader

string

erforderlich

Enum-Wert: application/json

string

erforderlich

Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragetext

integer

Wenn angegeben, bemüht sich das System, deterministisch zu sampeln. Anfragen mit demselben seed und denselben Parametern sollten dasselbe Ergebnis zurückgeben, absolute Deterministik wird jedoch nicht garantiert. Muss eine Ganzzahl zwischen 0 und 2147483647 sein.Wertebereich: [0, 2147483647]

boolean

Standard:false

Ob der aktuelle Sprecher in der hochgeladenen Datei gekennzeichnet werden soll.

string

Standard:"other"

Eingabe-Audioformat. Möglich sind ‘pcm_s16le_16’ oder ‘other’. pcm_s16le_16 erfordert Audio mit 16 kHz Abtastrate, 16-Bit-Integer, Mono und Little-Endian-Format und bietet eine geringere Latenz als codierte Wellenformen.Mögliche Werte: pcm_s16le_16, other

number

Steuert die Zufälligkeit der Transkriptionsausgabe. Der Wertebereich liegt zwischen 0.0 und 2.0; höhere Werte führen zu vielfältigeren und weniger deterministischen Ergebnissen. Wenn ausgelassen, wird die Standardtemperatur des ausgewählten Modells verwendet (in der Regel 0).Wertebereich: [0, 2]

integer

Die maximale Anzahl von Sprechern in der hochgeladenen Datei. Kann zur Unterstützung der Sprechertrennung verwendet werden; unterstützt bis zu 32 Sprecher.Wertebereich: [1, 32]

string

Gibt den ISO-639-1- oder ISO-639-3-Sprachcode der Audiodatei an. Eine vorherige Angabe kann die Transkriptionsleistung mitunter verbessern. Standardmäßig null; die Sprache wird automatisch erkannt.

boolean

Standard:true

Ob Audioereignisse wie (laughter) oder (footsteps) in der Transkription markiert werden sollen.

string

erforderlich

HTTPS-Link der zu transkribierenden Datei. Entweder file oder cloud_storage_url muss angegeben werden. Die Datei muss per HTTPS erreichbar und kleiner als 2 GB sein. Unterstützt werden alle gültigen HTTPS-Adressen, einschließlich Cloud-Speicher (AWS S3, GCS, Cloudflare R2 usw.), CDN oder andere HTTPS-Quellen, sowie vorsignierte Links mit Token oder Authentifizierung über URL-Abfrageparameter.

boolean

Standard:false

Ob die Audiodatei mehrkanalig ist und jeder Kanal nur einen einzelnen Sprecher enthält. Nach Aktivierung wird jeder Kanal unabhängig transkribiert und das Ergebnis zusammengeführt. Jedes Wort in der Ausgabe enthält ein channel_index-Feld; unterstützt werden bis zu 5 Kanäle.

number

Schwellenwert für die Sprechertrennung (diarization). Bei einem größeren Wert ist die Wahrscheinlichkeit geringer, dass eine Person in mehrere Personen aufgeteilt wird, aber höher, dass verschiedene Personen zu einer Person zusammengeführt werden (weniger erkannte Sprecher). Bei einem kleineren Wert steigt die Wahrscheinlichkeit, dass eine Person in mehrere Personen aufgeteilt wird, während die Wahrscheinlichkeit sinkt, dass verschiedene Personen zusammengeführt werden (mehr Sprecher). Kann nur gesetzt werden, wenn diarize=True und num_speakers=None. Standardmäßig None; der Schwellenwert wird anhand der Modell-ID ausgewählt (in der Regel 0,22).Wertebereich: [0.1, 0.4]

string

Standard:"word"

Granularität der Zeitstempel in der Transkription. ‘word’ bietet Zeitstempel auf Wortebene, ‘character’ bietet Zeitstempel für jedes einzelne Zeichen.Mögliche Werte: none, word, character

Antwortinformationen

Die Antwort kann einer der folgenden Antworttypen sein:

Antworttyp 1

string

erforderlich

Der ursprüngliche transkribierte Text.

object[]

erforderlich

Liste der Wörter und ihrer Zeitinformationen.

Ausblenden Eigenschaften

number

Endzeit dieses Wortes oder Geräuschs in der Audiodatei (Sekunden).

string

erforderlich

Inhalt des transkribierten Wortes oder Geräuschs.

string

erforderlich

Typ dieses Wortes oder Geräuschs. ‘audio_event’ wird für Nicht-Wort-Geräusche wie Lachen oder Schritte verwendet.Mögliche Werte: word, spacing, audio_event

number

Startzeit dieses Wortes oder Geräuschs in der Audiodatei (Sekunden).

number

erforderlich

Logarithmische Wahrscheinlichkeit bei der Vorhersage dieses Wortes. Der logprob-Bereich ist [-infinity, 0]; höhere Werte bedeuten, dass das Modell bei der Vorhersage zuversichtlicher ist.

object[]

Zeichen, aus denen das Wort besteht, und ihre entsprechenden Zeitinformationen.

Ausblenden Eigenschaften

number

Endzeit des Zeichens in der Audiodatei (Sekunden).

string

erforderlich

Inhalt des transkribierten Zeichens.

number

Startzeit des Zeichens in der Audiodatei (Sekunden).

string

Eindeutige Kennung des Sprechers, dem dieses Wort entspricht.

integer

Kanalindex, dem diese Transkription entspricht (wirksam bei mehrkanaligem Audio).

string

erforderlich

Erkannter Sprachcode (z. B. ‘eng’ für Englisch).

string

Eindeutige Transkriptions-ID dieser Antwort.

number

erforderlich

Konfidenz der Spracherkennung (zwischen 0 und 1).

Antworttyp 2

object[]

erforderlich

Liste der Transkriptionen für jeden Audiokanal. Jede Transkription enthält den Text des zugehörigen Kanals sowie Details auf Wortebene.

Ausblenden Eigenschaften

string

erforderlich

Der ursprüngliche transkribierte Text.

object[]

erforderlich

Liste der Wörter und ihrer Zeitinformationen.

Ausblenden Eigenschaften

number

Endzeit dieses Wortes oder Geräuschs in der Audiodatei (Sekunden).

string

erforderlich

Inhalt des transkribierten Wortes oder Geräuschs.

string

erforderlich

Typ dieses Wortes oder Geräuschs. ‘audio_event’ wird für Nicht-Wort-Geräusche wie Lachen oder Schritte verwendet.Mögliche Werte: word, spacing, audio_event

number

Startzeit dieses Wortes oder Geräuschs in der Audiodatei (Sekunden).

number

erforderlich

Logarithmische Wahrscheinlichkeit bei der Vorhersage dieses Wortes. Der logprob-Bereich ist [-infinity, 0]; höhere Werte bedeuten, dass das Modell bei der Vorhersage zuversichtlicher ist.

object[]

Zeichen, aus denen das Wort besteht, und ihre entsprechenden Zeitinformationen.

Ausblenden Eigenschaften

number

Endzeit des Zeichens in der Audiodatei (Sekunden).

string

erforderlich

Inhalt des transkribierten Zeichens.

number

Startzeit des Zeichens in der Audiodatei (Sekunden).

string

Eindeutige Kennung des Sprechers, dem dieses Wort entspricht.

integer

Kanalindex, dem diese Transkription entspricht (wirksam bei mehrkanaligem Audio).

string

erforderlich

Erkannter Sprachcode (z. B. ‘eng’ für Englisch).

string

Eindeutige Transkriptions-ID dieser Antwort.

number

erforderlich

Konfidenz der Spracherkennung (zwischen 0 und 1).

string

Eindeutige Transkriptions-ID dieser Antwort.

ElevenLabs Speech-to-Text V1

Zurück

ElevenLabs Text-to-Speech Flash V2

Weiter

API-Grundlagen

Große Sprachmodelle

Bilder

Video

Audio

ElevenLabs Sprache-zu-Text V2

Anfrageheader

Anfragetext

Antwortinformationen

​Anfrageheader

​Anfragetext

​Antwortinformationen

Anfrageheader

Anfragetext

Antwortinformationen