ElevenLabs Speech-to-Text V1
Audio
ElevenLabs Speech-to-Text V1
POST
ElevenLabs Speech-to-Text V1
Transkribiert Audio- oder Videodateien. Wenn use_multi_channel auf true gesetzt ist und die hochgeladene Audiodatei mehrere Kanäle hat, wird ein ‘transcripts’-Objekt zurückgegeben, mit einer Transkription pro Kanal. Andernfalls wird ein einzelnes Transkriptionsergebnis zurückgegeben.
Anfrageheader
Enumerationswert:
application/jsonBearer-Authentifizierungsformat: Bearer {{API Key}}.
Anfragetext
Wenn angegeben, bemüht sich das System um deterministisches Sampling. Anfragen mit demselben seed und denselben Parametern sollten dasselbe Ergebnis zurückgeben, absolute Deterministik wird jedoch nicht garantiert. Muss eine Ganzzahl zwischen 0 und 2147483647 sein.Wertebereich: [0, 2147483647]
Ob der aktuelle Sprecher in der hochgeladenen Datei markiert werden soll.
Eingabe-Audioformat. Möglich sind ‘pcm_s16le_16’ oder ‘other’. pcm_s16le_16 erfordert Audio mit 16 kHz Abtastrate, 16-Bit-Ganzzahl, Mono und Little-Endian-Format und hat im Vergleich zu codierten Wellenformen eine geringere Latenz.Mögliche Werte:
pcm_s16le_16, otherSteuert die Zufälligkeit der Transkriptionsausgabe. Der Wertebereich liegt bei 0.0 bis 2.0; je höher der Wert, desto vielfältiger und weniger deterministisch sind die Ergebnisse. Wenn ausgelassen, wird die Standardtemperatur des ausgewählten Modells verwendet (normalerweise 0).Wertebereich: [0, 2]
Die maximale Anzahl der Sprecher in der hochgeladenen Datei. Kann verwendet werden, um die Sprechertrennung zu unterstützen; unterstützt werden bis zu 32 Sprecher.Wertebereich: [1, 32]
Gibt den ISO-639-1- oder ISO-639-3-Sprachcode der Audiodatei an. Eine vorherige Angabe kann die Transkriptionsleistung manchmal verbessern. Standardmäßig null; die Sprache wird automatisch erkannt.
Ob Audioereignisse wie (laughter) oder (footsteps) in der Transkription markiert werden sollen.
HTTPS-Link zur zu transkribierenden Datei. Genau eines von file und cloud_storage_url muss angegeben werden. Die Datei muss über HTTPS erreichbar und kleiner als 2 GB sein. Unterstützt werden alle gültigen HTTPS-Adressen, einschließlich Cloud-Speicher (AWS S3, GCS, Cloudflare R2 usw.), CDN oder andere HTTPS-Quellen sowie vorsignierte Links mit Token oder Authentifizierung über URL-Abfrageparameter.
Ob die Audiodatei mehrkanalig ist und jeder Kanal nur einen einzelnen Sprecher enthält. Nach der Aktivierung wird jeder Kanal unabhängig transkribiert und das Ergebnis zusammengeführt; jedes Wort in der Ausgabe enthält ein channel_index-Feld. Unterstützt werden bis zu 5 Kanäle.
Schwellenwert für die Sprechertrennung (diarization). Bei höheren Werten ist die Wahrscheinlichkeit geringer, dass eine Person in mehrere Personen aufgeteilt wird, aber höher, dass verschiedene Personen zu einer Person zusammengeführt werden (weniger erkannte Sprecher); bei niedrigeren Werten steigt die Wahrscheinlichkeit, dass eine Person in mehrere Personen aufgeteilt wird, während die Wahrscheinlichkeit sinkt, dass verschiedene Personen zusammengeführt werden (mehr Sprecher). Kann nur gesetzt werden, wenn diarize=True und num_speakers=None ist. Standardmäßig None; der Schwellenwert wird anhand der Modell-id gewählt (normalerweise 0.22).Wertebereich: [0.1, 0.4]
Granularität der Zeitstempel im Transkriptionsinhalt. ‘word’ stellt Zeitstempel auf Wortebene bereit, ‘character’ stellt Zeitstempel für jedes Zeichen bereit.Mögliche Werte:
none, word, characterAntwortinformationen
Die Antwort kann einem der folgenden Antworttypen entsprechen:
Antworttyp 1
Antworttyp 1
Der ursprüngliche transkribierte Text.
Liste der Wörter und ihrer Zeitinformationen.
Der Kanalindex, dem diese Transkription entspricht (gültig bei mehrkanaligem Audio).
Der erkannte Sprachcode (z. B. ‘eng’ für Englisch).
Die eindeutige Transkriptions-ID dieser Antwort.
Konfidenz der Spracherkennung (zwischen 0 und 1).