ElevenLabs parole en texte V2

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v2 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'

import requests

url = "https://api.highwayapi.ai/v3/elevenlabs-scribe-v2"

payload = {
    "seed": 123,
    "diarize": True,
    "file_format": "<string>",
    "temperature": 123,
    "num_speakers": 123,
    "language_code": "<string>",
    "tag_audio_events": True,
    "cloud_storage_url": "<string>",
    "use_multi_channel": True,
    "diarization_threshold": 123,
    "timestamps_granularity": "<string>"
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    seed: 123,
    diarize: true,
    file_format: '<string>',
    temperature: 123,
    num_speakers: 123,
    language_code: '<string>',
    tag_audio_events: true,
    cloud_storage_url: '<string>',
    use_multi_channel: true,
    diarization_threshold: 123,
    timestamps_granularity: '<string>'
  })
};

fetch('https://api.highwayapi.ai/v3/elevenlabs-scribe-v2', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/elevenlabs-scribe-v2",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'seed' => 123,
    'diarize' => true,
    'file_format' => '<string>',
    'temperature' => 123,
    'num_speakers' => 123,
    'language_code' => '<string>',
    'tag_audio_events' => true,
    'cloud_storage_url' => '<string>',
    'use_multi_channel' => true,
    'diarization_threshold' => 123,
    'timestamps_granularity' => '<string>'
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/elevenlabs-scribe-v2"

	payload := strings.NewReader("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/elevenlabs-scribe-v2")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/elevenlabs-scribe-v2")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}"

response = http.request(request)
puts response.read_body

POST

elevenlabs-scribe-v2

ElevenLabs parole en texte V2

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v2 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'

import requests

url = "https://api.highwayapi.ai/v3/elevenlabs-scribe-v2"

payload = {
    "seed": 123,
    "diarize": True,
    "file_format": "<string>",
    "temperature": 123,
    "num_speakers": 123,
    "language_code": "<string>",
    "tag_audio_events": True,
    "cloud_storage_url": "<string>",
    "use_multi_channel": True,
    "diarization_threshold": 123,
    "timestamps_granularity": "<string>"
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {'Content-Type': '<content-type>', Authorization: '<authorization>'},
  body: JSON.stringify({
    seed: 123,
    diarize: true,
    file_format: '<string>',
    temperature: 123,
    num_speakers: 123,
    language_code: '<string>',
    tag_audio_events: true,
    cloud_storage_url: '<string>',
    use_multi_channel: true,
    diarization_threshold: 123,
    timestamps_granularity: '<string>'
  })
};

fetch('https://api.highwayapi.ai/v3/elevenlabs-scribe-v2', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.highwayapi.ai/v3/elevenlabs-scribe-v2",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => json_encode([
    'seed' => 123,
    'diarize' => true,
    'file_format' => '<string>',
    'temperature' => 123,
    'num_speakers' => 123,
    'language_code' => '<string>',
    'tag_audio_events' => true,
    'cloud_storage_url' => '<string>',
    'use_multi_channel' => true,
    'diarization_threshold' => 123,
    'timestamps_granularity' => '<string>'
  ]),
  CURLOPT_HTTPHEADER => [
    "Authorization: <authorization>",
    "Content-Type: <content-type>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.highwayapi.ai/v3/elevenlabs-scribe-v2"

	payload := strings.NewReader("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Content-Type", "<content-type>")
	req.Header.Add("Authorization", "<authorization>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.highwayapi.ai/v3/elevenlabs-scribe-v2")
  .header("Content-Type", "<content-type>")
  .header("Authorization", "<authorization>")
  .body("{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://api.highwayapi.ai/v3/elevenlabs-scribe-v2")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Content-Type"] = '<content-type>'
request["Authorization"] = '<authorization>'
request.body = "{\n  \"seed\": 123,\n  \"diarize\": true,\n  \"file_format\": \"<string>\",\n  \"temperature\": 123,\n  \"num_speakers\": 123,\n  \"language_code\": \"<string>\",\n  \"tag_audio_events\": true,\n  \"cloud_storage_url\": \"<string>\",\n  \"use_multi_channel\": true,\n  \"diarization_threshold\": 123,\n  \"timestamps_granularity\": \"<string>\"\n}"

response = http.request(request)
puts response.read_body

Transcrit des fichiers audio ou vidéo. Lorsque use_multi_channel vaut true et que l’audio téléversé comporte plusieurs canaux, renvoie un objet ‘transcripts’, avec une transcription par canal. Sinon, renvoie un résultat de transcription unique.

En-têtes de requête

string

requis

Valeurs d’énumération : application/json

string

requis

Format d’authentification Bearer : Bearer {{API Key}}.

Corps de la requête

integer

Si spécifié, le système fera de son mieux pour échantillonner de manière déterministe ; les requêtes avec le même seed et les mêmes paramètres devraient renvoyer le même résultat, sans garantie de déterminisme absolu. Doit être un entier compris entre 0 et 2147483647.Plage de valeurs : [0, 2147483647]

boolean

défaut:false

Indique s’il faut annoter le locuteur actuel dans le fichier téléversé.

string

défaut:"other"

Format audio d’entrée. Peut être ‘pcm_s16le_16’ ou ‘other’. pcm_s16le_16 exige un audio à une fréquence d’échantillonnage de 16 kHz, en entier 16 bits, mono, au format little-endian, avec une latence plus faible que les formes d’onde encodées.Valeurs possibles : pcm_s16le_16, other

number

Contrôle le caractère aléatoire de la sortie de transcription. La plage de valeurs est de 0.0 à 2.0 ; plus la valeur est élevée, plus les résultats sont variés et moins déterministes. Si omis, la température par défaut du modèle sélectionné sera utilisée (généralement 0).Plage de valeurs : [0, 2]

integer

Nombre maximal de locuteurs dans le fichier téléversé. Peut être utilisé pour aider à distinguer les locuteurs ; jusqu’à 32 locuteurs sont pris en charge.Plage de valeurs : [1, 32]

string

Spécifie le code de langue ISO-639-1 ou ISO-639-3 du fichier audio. L’indiquer à l’avance peut parfois améliorer les performances de transcription. La valeur par défaut est null, et la langue sera détectée automatiquement.

boolean

défaut:true

Indique s’il faut marquer dans la transcription les événements audio tels que (laughter) ou (footsteps).

string

requis

Lien HTTPS du fichier à transcrire. L’un des deux champs file et cloud_storage_url doit être fourni. Le fichier doit être accessible via HTTPS et faire moins de 2 Go ; toute adresse HTTPS valide est prise en charge, y compris le stockage cloud (AWS S3, GCS, Cloudflare R2, etc.), un CDN ou d’autres sources HTTPS. Les liens présignés avec token ou l’authentification par paramètres de requête d’URL sont pris en charge.

boolean

défaut:false

Indique si le fichier audio est multicanal et si chaque canal ne contient qu’un seul locuteur. Une fois activé, chaque canal est transcrit indépendamment et les résultats sont fusionnés ; chaque mot du contenu de sortie inclut un champ channel_index. Jusqu’à 5 canaux sont pris en charge.

number

Seuil de séparation des locuteurs (diarization). Lorsque la valeur est élevée, la probabilité qu’une même personne soit divisée en plusieurs locuteurs est faible, mais la probabilité que différentes personnes soient fusionnées en un seul locuteur est élevée (moins de locuteurs détectés) ; lorsque la valeur est faible, la probabilité qu’une même personne soit divisée en plusieurs locuteurs augmente, mais la probabilité que différentes personnes soient fusionnées diminue (plus de locuteurs). Ne peut être défini que lorsque diarize=True et num_speakers=None. La valeur par défaut est None ; le seuil est choisi en fonction de l’id du modèle (généralement 0.22).Plage de valeurs : [0.1, 0.4]

string

défaut:"word"

Granularité des horodatages dans le contenu transcrit. ‘word’ fournit des horodatages au niveau des mots, tandis que ‘character’ fournit des horodatages pour chaque caractère.Valeurs possibles : none, word, character

Informations de réponse

La réponse peut être de l’un des types suivants :

Type de réponse 1

string

requis

Texte brut transcrit.

object[]

requis

Liste des mots et de leurs informations temporelles.

Masquer properties

number

Heure de fin de ce mot ou de ce son dans l’audio (en secondes).

string

requis

Contenu du mot ou du son transcrit.

string

requis

Type de ce mot ou de ce son. ‘audio_event’ est utilisé pour les sons qui ne sont pas des mots, comme les rires ou les bruits de pas.Valeurs possibles : word, spacing, audio_event

number

Heure de début de ce mot ou de ce son dans l’audio (en secondes).

number

requis

Log-probabilité lors de la prédiction de ce mot. La plage de logprob est [-infinity, 0] ; plus la valeur est élevée, plus le modèle est confiant dans sa prédiction.

object[]

Caractères composant le mot et leurs informations temporelles correspondantes.

Masquer properties

number

Heure de fin du caractère dans l’audio (en secondes).

string

requis

Contenu du caractère transcrit.

number

Heure de début du caractère dans l’audio (en secondes).

string

Identifiant unique du locuteur correspondant à ce mot.

integer

Index du canal correspondant à cette transcription (valide pour l’audio multicanal).

string

requis

Code de langue détecté (par exemple ‘eng’ pour l’anglais).

string

ID de transcription unique de cette réponse.

number

requis

Niveau de confiance de la détection de langue (entre 0 et 1).

Type de réponse 2

object[]

requis

Liste des transcriptions correspondant à chaque canal audio. Chaque transcription contient le texte du canal correspondant ainsi que des informations détaillées au niveau des mots.

Masquer properties

string

requis

Texte brut transcrit.

object[]

requis

Liste des mots et de leurs informations temporelles.

Masquer properties

number

Heure de fin de ce mot ou de ce son dans l’audio (en secondes).

string

requis

Contenu du mot ou du son transcrit.

string

requis

Type de ce mot ou de ce son. ‘audio_event’ est utilisé pour les sons qui ne sont pas des mots, comme les rires ou les bruits de pas.Valeurs possibles : word, spacing, audio_event

number

Heure de début de ce mot ou de ce son dans l’audio (en secondes).

number

requis

Log-probabilité lors de la prédiction de ce mot. La plage de logprob est [-infinity, 0] ; plus la valeur est élevée, plus le modèle est confiant dans sa prédiction.

object[]

Caractères composant le mot et leurs informations temporelles correspondantes.

Masquer properties

number

Heure de fin du caractère dans l’audio (en secondes).

string

requis

Contenu du caractère transcrit.

number

Heure de début du caractère dans l’audio (en secondes).

string

Identifiant unique du locuteur correspondant à ce mot.

integer

Index du canal correspondant à cette transcription (valide pour l’audio multicanal).

string

requis

Code de langue détecté (par exemple ‘eng’ pour l’anglais).

string

ID de transcription unique de cette réponse.

number

requis

Niveau de confiance de la détection de langue (entre 0 et 1).

string

ID de transcription unique de cette réponse.

ElevenLabs Speech-to-Text V1

Synthèse vocale ElevenLabs Flash V2

Bases de l'API

Grands modèles de langage

Images

Vidéo

Audio

ElevenLabs parole en texte V2

En-têtes de requête

Corps de la requête

Informations de réponse

​En-têtes de requête

​Corps de la requête

​Informations de réponse

En-têtes de requête

Corps de la requête

Informations de réponse