Zum Hauptinhalt springen
POST
/
v3
/
elevenlabs-scribe-v2
ElevenLabs Sprache-zu-Text V2
curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v2 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'
Transkribiert Audio- oder Videodateien. Wenn use_multi_channel true ist und die hochgeladene Audiodatei mehrere Kanäle hat, wird ein ‘transcripts’-Objekt zurückgegeben, mit einer Transkription pro Kanal. Andernfalls wird ein einzelnes Transkriptionsergebnis zurückgegeben.

Anfrageheader

Content-Type
string
erforderlich
Enum-Wert: application/json
Authorization
string
erforderlich
Bearer-Authentifizierungsformat: Bearer {{API Key}}.

Anfragetext

seed
integer
Wenn angegeben, bemüht sich das System, deterministisch zu sampeln. Anfragen mit demselben seed und denselben Parametern sollten dasselbe Ergebnis zurückgeben, absolute Deterministik wird jedoch nicht garantiert. Muss eine Ganzzahl zwischen 0 und 2147483647 sein.Wertebereich: [0, 2147483647]
diarize
boolean
Standard:false
Ob der aktuelle Sprecher in der hochgeladenen Datei gekennzeichnet werden soll.
file_format
string
Standard:"other"
Eingabe-Audioformat. Möglich sind ‘pcm_s16le_16’ oder ‘other’. pcm_s16le_16 erfordert Audio mit 16 kHz Abtastrate, 16-Bit-Integer, Mono und Little-Endian-Format und bietet eine geringere Latenz als codierte Wellenformen.Mögliche Werte: pcm_s16le_16, other
temperature
number
Steuert die Zufälligkeit der Transkriptionsausgabe. Der Wertebereich liegt zwischen 0.0 und 2.0; höhere Werte führen zu vielfältigeren und weniger deterministischen Ergebnissen. Wenn ausgelassen, wird die Standardtemperatur des ausgewählten Modells verwendet (in der Regel 0).Wertebereich: [0, 2]
num_speakers
integer
Die maximale Anzahl von Sprechern in der hochgeladenen Datei. Kann zur Unterstützung der Sprechertrennung verwendet werden; unterstützt bis zu 32 Sprecher.Wertebereich: [1, 32]
language_code
string
Gibt den ISO-639-1- oder ISO-639-3-Sprachcode der Audiodatei an. Eine vorherige Angabe kann die Transkriptionsleistung mitunter verbessern. Standardmäßig null; die Sprache wird automatisch erkannt.
tag_audio_events
boolean
Standard:true
Ob Audioereignisse wie (laughter) oder (footsteps) in der Transkription markiert werden sollen.
cloud_storage_url
string
erforderlich
HTTPS-Link der zu transkribierenden Datei. Entweder file oder cloud_storage_url muss angegeben werden. Die Datei muss per HTTPS erreichbar und kleiner als 2 GB sein. Unterstützt werden alle gültigen HTTPS-Adressen, einschließlich Cloud-Speicher (AWS S3, GCS, Cloudflare R2 usw.), CDN oder andere HTTPS-Quellen, sowie vorsignierte Links mit Token oder Authentifizierung über URL-Abfrageparameter.
use_multi_channel
boolean
Standard:false
Ob die Audiodatei mehrkanalig ist und jeder Kanal nur einen einzelnen Sprecher enthält. Nach Aktivierung wird jeder Kanal unabhängig transkribiert und das Ergebnis zusammengeführt. Jedes Wort in der Ausgabe enthält ein channel_index-Feld; unterstützt werden bis zu 5 Kanäle.
diarization_threshold
number
Schwellenwert für die Sprechertrennung (diarization). Bei einem größeren Wert ist die Wahrscheinlichkeit geringer, dass eine Person in mehrere Personen aufgeteilt wird, aber höher, dass verschiedene Personen zu einer Person zusammengeführt werden (weniger erkannte Sprecher). Bei einem kleineren Wert steigt die Wahrscheinlichkeit, dass eine Person in mehrere Personen aufgeteilt wird, während die Wahrscheinlichkeit sinkt, dass verschiedene Personen zusammengeführt werden (mehr Sprecher). Kann nur gesetzt werden, wenn diarize=True und num_speakers=None. Standardmäßig None; der Schwellenwert wird anhand der Modell-ID ausgewählt (in der Regel 0,22).Wertebereich: [0.1, 0.4]
timestamps_granularity
string
Standard:"word"
Granularität der Zeitstempel in der Transkription. ‘word’ bietet Zeitstempel auf Wortebene, ‘character’ bietet Zeitstempel für jedes einzelne Zeichen.Mögliche Werte: none, word, character

Antwortinformationen

Die Antwort kann einer der folgenden Antworttypen sein:
text
string
erforderlich
Der ursprüngliche transkribierte Text.
words
array
erforderlich
Liste der Wörter und ihrer Zeitinformationen.
channel_index
integer
Kanalindex, dem diese Transkription entspricht (wirksam bei mehrkanaligem Audio).
language_code
string
erforderlich
Erkannter Sprachcode (z. B. ‘eng’ für Englisch).
transcription_id
string
Eindeutige Transkriptions-ID dieser Antwort.
language_probability
number
erforderlich
Konfidenz der Spracherkennung (zwischen 0 und 1).
transcripts
array
erforderlich
Liste der Transkriptionen für jeden Audiokanal. Jede Transkription enthält den Text des zugehörigen Kanals sowie Details auf Wortebene.
transcription_id
string
Eindeutige Transkriptions-ID dieser Antwort.