ElevenLabs Преобразование речи в текст V1

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v1 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'

POST

elevenlabs-scribe-v1

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-scribe-v1 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'

Транскрибирует аудио- или видеофайлы. Когда use_multi_channel имеет значение true и загруженное аудио содержит несколько каналов, возвращается объект ‘transcripts’ — по одной транскрипции для каждого канала. В противном случае возвращается один результат транскрипции.

Заголовки запроса

Content-Type

string

обязательно

Значения перечисления: application/json

Authorization

string

обязательно

Формат Bearer-аутентификации: Bearer {{API 密钥}}.

Тело запроса

seed

integer

Если указано, система по возможности будет выполнять выборку детерминированным образом; запросы с одинаковыми seed и параметрами должны возвращать одинаковые результаты, но абсолютная детерминированность не гарантируется. Должно быть целым числом от 0 до 2147483647.Диапазон значений: [0, 2147483647]

diarize

boolean

по умолчанию:false

Нужно ли помечать текущего говорящего в загруженном файле.

file_format

string

по умолчанию:"other"

Формат входного аудио. Возможные значения: ‘pcm_s16le_16’ или ‘other’. pcm_s16le_16 требует, чтобы аудио было с частотой дискретизации 16kHz, 16-битным целочисленным, моно, в формате little-endian; по сравнению с кодированным waveform задержка ниже.Возможные значения: pcm_s16le_16, other

temperature

number

Управляет случайностью вывода транскрипции. Диапазон значений — от 0.0 до 2.0; чем выше значение, тем более разнообразными и менее определенными будут результаты. Если параметр опущен, будет использована температура по умолчанию для выбранной модели (обычно 0).Диапазон значений: [0, 2]

num_speakers

integer

Максимальное количество говорящих в загруженном файле. Может использоваться для помощи в различении говорящих; поддерживается до 32 говорящих.Диапазон значений: [1, 32]

language_code

string

Указывает код языка аудиофайла по ISO-639-1 или ISO-639-3. Предварительное указание иногда может повысить качество транскрипции. По умолчанию null; язык будет определен автоматически.

tag_audio_events

boolean

по умолчанию:true

Нужно ли помечать в транскрипции аудиособытия, такие как（laughter）（footsteps）.

cloud_storage_url

string

обязательно

HTTPS-ссылка на файл для транскрипции. Необходимо указать либо file, либо cloud_storage_url. Файл должен быть доступен по HTTPS и иметь размер менее 2GB; поддерживается любой допустимый HTTPS-адрес, включая облачные хранилища (AWS S3、GCS、Cloudflare R2 и т. д.), CDN или другие HTTPS-источники, а также предварительно подписанные ссылки с token или аутентификацией через URL-параметры запроса.

use_multi_channel

boolean

по умолчанию:false

Является ли аудиофайл многоканальным, причем каждый канал содержит только одного говорящего. При включении каждый канал транскрибируется отдельно, а результаты объединяются; каждое слово в выходном содержимом содержит поле channel_index. Поддерживается до 5 каналов.

diarization_threshold

number

Порог диаризации говорящих (diarization). При более высоком значении вероятность разделения одного человека на нескольких ниже, но вероятность объединения разных людей в одного выше (выявляется меньше говорящих); при более низком значении вероятность разделения одного человека на нескольких выше, но вероятность объединения разных людей в одного ниже (говорящих больше). Можно задать только когда diarize=True и num_speakers=None. По умолчанию None; порог выбирается на основе id модели (обычно 0.22).Диапазон значений: [0.1, 0.4]

timestamps_granularity

string

по умолчанию:"word"

Детализация временных меток в транскрипции. ‘word’ предоставляет временные метки на уровне слов, ‘character’ — временные метки для каждого символа.Возможные значения: none, word, character

Информация об ответе

Ответ может быть одним из следующих типов:

Тип ответа 1

text

string

обязательно

Исходный текст транскрипции.

words

array

обязательно

Список слов и соответствующей временной информации.

Скрыть properties

end

number

Время окончания этого слова или звука в аудио (в секундах).

text

string

обязательно

Содержимое транскрибированного слова или звука.

type

string

обязательно

Тип этого слова или звука. ‘audio_event’ используется для несловесных звуков, таких как смех или шаги.Возможные значения: word, spacing, audio_event

start

number

Время начала этого слова или звука в аудио (в секундах).

logprob

number

обязательно

Логарифм вероятности при прогнозировании этого слова. Диапазон logprob: [-infinity, 0]; чем выше значение, тем увереннее прогноз модели.

characters

array

Символы, составляющие слово, и соответствующая временная информация.

Скрыть properties

end

number

Время окончания символа в аудио (в секундах).

text

string

обязательно

Содержимое транскрибированного символа.

start

number

Время начала символа в аудио (в секундах).

speaker_id

string

Уникальный идентификатор говорящего, соответствующего этому слову.

channel_index

integer

Индекс канала, соответствующий этой транскрипции (действительно для многоканального аудио).

language_code

string

обязательно

Обнаруженный код языка (например, ‘eng’ означает английский).

transcription_id

string

Уникальный ID транскрипции для этого ответа.

language_probability

number

обязательно

Уверенность определения языка (от 0 до 1).

Тип ответа 2

transcripts

array

обязательно

Список транскрипций, соответствующих каждому аудиоканалу. Каждая транскрипция содержит текст соответствующего канала и подробную информацию на уровне слов.

Скрыть properties

text

string

обязательно

Исходный текст транскрипции.

words

array

обязательно

Список слов и соответствующей временной информации.

Скрыть properties

end

number

Время окончания этого слова или звука в аудио (в секундах).

text

string

обязательно

Содержимое транскрибированного слова или звука.

type

string

обязательно

start

number

Время начала этого слова или звука в аудио (в секундах).

logprob

number

обязательно

characters

array

Символы, составляющие слово, и соответствующая временная информация.

Скрыть properties

end

number

Время окончания символа в аудио (в секундах).

text

string

обязательно

Содержимое транскрибированного символа.

start

number

Время начала символа в аудио (в секундах).

speaker_id

string

Уникальный идентификатор говорящего, соответствующего этому слову.

channel_index

integer

Индекс канала, соответствующий этой транскрипции (действительно для многоканального аудио).

language_code

string

обязательно

Обнаруженный код языка (например, ‘eng’ означает английский).

transcription_id

string

Уникальный ID транскрипции для этого ответа.

language_probability

number

обязательно

Уверенность определения языка (от 0 до 1).

transcription_id

string

Уникальный ID транскрипции для этого ответа.

Быстрое клонирование аудио MiniMax

ElevenLabs преобразование речи в текст V2

​Заголовки запроса

​Тело запроса

​Информация об ответе

Заголовки запроса

Тело запроса

Информация об ответе