Passer au contenu principal
POST
/
v3
/
elevenlabs-scribe-v1
ElevenLabs Speech-to-Text V1
curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v1 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'
Transcrit des fichiers audio ou vidéo. Lorsque use_multi_channel est true et que l’audio téléversé comporte plusieurs canaux, renvoie un objet ‘transcripts’, avec une transcription par canal. Sinon, renvoie un résultat de transcription unique.

En-têtes de requête

Content-Type
string
requis
Valeur d’énumération : application/json
Authorization
string
requis
Format d’authentification Bearer : Bearer {{API Key}}.

Corps de la requête

seed
integer
Si spécifié, le système fera de son mieux pour effectuer un échantillonnage déterministe ; les requêtes avec le même seed et les mêmes paramètres devraient renvoyer le même résultat, sans garantie de déterminisme absolu. Doit être un entier compris entre 0 et 2147483647.Plage de valeurs : [0, 2147483647]
diarize
boolean
défaut:false
Indique s’il faut annoter le locuteur actuel dans le fichier téléversé.
file_format
string
défaut:"other"
Format audio d’entrée. Peut être ‘pcm_s16le_16’ ou ‘other’. pcm_s16le_16 exige un audio à une fréquence d’échantillonnage de 16 kHz, en entier 16 bits, mono, au format little-endian, avec une latence plus faible que les formes d’onde encodées.Valeurs possibles : pcm_s16le_16, other
temperature
number
Contrôle le caractère aléatoire de la sortie de transcription. La plage de valeurs est de 0.0 à 2.0 ; plus la valeur est élevée, plus les résultats sont variés et moins déterministes. Si omis, la température par défaut du modèle sélectionné sera utilisée (généralement 0).Plage de valeurs : [0, 2]
num_speakers
integer
Nombre maximal de locuteurs dans le fichier téléversé. Peut être utilisé pour aider à distinguer les locuteurs ; jusqu’à 32 locuteurs sont pris en charge.Plage de valeurs : [1, 32]
language_code
string
Spécifie le code de langue ISO-639-1 ou ISO-639-3 du fichier audio. L’indiquer à l’avance peut parfois améliorer les performances de transcription. Par défaut null, la langue sera détectée automatiquement.
tag_audio_events
boolean
défaut:true
Indique s’il faut marquer dans la transcription les événements audio tels que (laughter) ou (footsteps).
cloud_storage_url
string
requis
Lien HTTPS du fichier à transcrire. L’un des deux paramètres file ou cloud_storage_url est requis. Le fichier doit être accessible via HTTPS et faire moins de 2 Go ; toute adresse HTTPS valide est prise en charge, notamment le stockage cloud (AWS S3, GCS, Cloudflare R2, etc.), les CDN ou d’autres sources HTTPS, ainsi que les liens présignés avec token ou l’authentification via paramètres de requête d’URL.
use_multi_channel
boolean
défaut:false
Indique si le fichier audio est multicanal et si chaque canal contient un seul locuteur. Une fois activé, chaque canal est transcrit indépendamment et les résultats sont fusionnés ; chaque mot dans la sortie contient un champ channel_index. Jusqu’à 5 canaux sont pris en charge.
diarization_threshold
number
Seuil de diarisation des locuteurs. Une valeur élevée réduit la probabilité qu’une personne soit divisée en plusieurs locuteurs, mais augmente la probabilité que différentes personnes soient fusionnées en une seule (moins de locuteurs identifiés) ; une valeur faible augmente la probabilité qu’une personne soit divisée en plusieurs locuteurs, mais réduit la probabilité que différentes personnes soient fusionnées en une seule (plus de locuteurs). Peut être défini uniquement lorsque diarize=True et num_speakers=None. Par défaut None ; le seuil est choisi en fonction de l’id du modèle (généralement 0.22).Plage de valeurs : [0.1, 0.4]
timestamps_granularity
string
défaut:"word"
Granularité des horodatages dans le contenu transcrit. ‘word’ fournit des horodatages au niveau des mots, tandis que ‘character’ fournit les horodatages de chaque caractère.Valeurs possibles : none, word, character

Informations de réponse

La réponse peut être l’un des types de réponse suivants :
text
string
requis
Texte brut de la transcription.
words
array
requis
Liste des mots et de leurs informations temporelles.
channel_index
integer
Index du canal correspondant à cette transcription (valide pour l’audio multicanal).
language_code
string
requis
Code de langue détecté (par exemple, ‘eng’ pour l’anglais).
transcription_id
string
ID de transcription unique de cette réponse.
language_probability
number
requis
Niveau de confiance de la détection de la langue (entre 0 et 1).
transcripts
array
requis
Liste des transcriptions correspondant à chaque canal audio. Chaque transcription contient le texte du canal concerné ainsi que des informations détaillées au niveau des mots.
transcription_id
string
ID de transcription unique de cette réponse.