Перейти к основному содержанию
POST
/
v3
/
elevenlabs-scribe-v2
ElevenLabs преобразование речи в текст V2
curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v2 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'
Транскрибирует аудио- или видеофайлы. Когда use_multi_channel равно true и загруженный аудиофайл содержит несколько каналов, возвращается объект ‘transcripts’ — по одной транскрипции на каждый канал. В остальных случаях возвращается единый результат транскрипции.

Заголовки запроса

Content-Type
string
обязательно
Перечисляемое значение: application/json
Authorization
string
обязательно
Формат Bearer-аутентификации: Bearer {{API 密钥}}.

Тело запроса

seed
integer
Если указано, система постарается выполнять выборку детерминированным образом: запросы с одинаковыми seed и параметрами должны возвращать одинаковые результаты, однако абсолютная детерминированность не гарантируется. Должно быть целым числом от 0 до 2147483647.Диапазон значений: [0, 2147483647]
diarize
boolean
по умолчанию:false
Нужно ли помечать текущего говорящего в загруженном файле.
file_format
string
по умолчанию:"other"
Формат входного аудио. Возможные значения: ‘pcm_s16le_16’ или ‘other’. pcm_s16le_16 требует, чтобы аудио имело частоту дискретизации 16kHz, 16-битный целочисленный формат, один канал и порядок байтов little-endian; по сравнению с кодированной волновой формой задержка ниже.Возможные значения: pcm_s16le_16, other
temperature
number
Управляет случайностью вывода транскрипции. Диапазон значений от 0.0 до 2.0: чем выше значение, тем более разнообразными и менее определенными будут результаты. Если параметр опущен, будет использована температура по умолчанию выбранной модели (обычно 0).Диапазон значений: [0, 2]
num_speakers
integer
Максимальное количество говорящих в загруженном файле. Может использоваться для помощи в различении говорящих; поддерживается до 32 говорящих.Диапазон значений: [1, 32]
language_code
string
Указывает код языка аудиофайла в формате ISO-639-1 или ISO-639-3. Предварительное указание иногда может повысить качество транскрипции. По умолчанию null, язык будет определен автоматически.
tag_audio_events
boolean
по умолчанию:true
Нужно ли помечать в транскрипции аудиособытия, такие как (laughter), (footsteps) и т. п.
cloud_storage_url
string
обязательно
HTTPS-ссылка на файл для транскрипции. Необходимо указать либо file, либо cloud_storage_url. Файл должен быть доступен по HTTPS и иметь размер менее 2GB. Поддерживаются любые допустимые HTTPS-адреса, включая облачные хранилища (AWS S3, GCS, Cloudflare R2 и т. д.), CDN или другие HTTPS-источники; поддерживаются предварительно подписанные ссылки с token или аутентификация через параметры запроса URL.
use_multi_channel
boolean
по умолчанию:false
Является ли аудиофайл многоканальным, при этом каждый канал содержит только одного говорящего. После включения каждый канал будет транскрибирован независимо, а результаты будут объединены; каждое слово в выходном содержимом будет содержать поле channel_index. Поддерживается до 5 каналов.
diarization_threshold
number
Порог разделения говорящих (diarization). При большом значении вероятность того, что один человек будет разделен на нескольких, ниже, но вероятность объединения разных людей в одного выше (будет выявлено меньше говорящих); при малом значении вероятность разделения одного человека на нескольких выше, но вероятность объединения разных людей в одного ниже (говорящих будет больше). Можно задавать только когда diarize=True и num_speakers=None. По умолчанию None; порог выбирается на основе model id (обычно 0.22).Диапазон значений: [0.1, 0.4]
timestamps_granularity
string
по умолчанию:"word"
Гранулярность временных меток в транскрибированном содержимом. ‘word’ предоставляет временные метки на уровне слов, ‘character’ предоставляет временные метки для каждого символа.Возможные значения: none, word, character

Информация об ответе

Ответ может быть одним из следующих типов:
text
string
обязательно
Исходный текст транскрипции.
words
array
обязательно
Список слов и связанной с ними временной информации.
channel_index
integer
Индекс канала, соответствующий этой транскрипции (актуально для многоканального аудио).
language_code
string
обязательно
Обнаруженный код языка (например, ‘eng’ означает английский).
transcription_id
string
Уникальный ID транскрипции для этого ответа.
language_probability
number
обязательно
Уверенность определения языка (от 0 до 1).
transcripts
array
обязательно
Список транскрипций, соответствующих каждому аудиоканалу. Каждая транскрипция содержит текст соответствующего канала и подробную информацию на уровне слов.
transcription_id
string
Уникальный ID транскрипции для этого ответа.