ElevenLabs Преобразование речи в текст V1
Аудио
ElevenLabs Преобразование речи в текст V1
POST
ElevenLabs Преобразование речи в текст V1
Транскрибирует аудио- или видеофайлы. Когда use_multi_channel имеет значение true и загруженное аудио содержит несколько каналов, возвращается объект ‘transcripts’ — по одной транскрипции для каждого канала. В противном случае возвращается один результат транскрипции.
Заголовки запроса
Значения перечисления:
application/jsonФормат Bearer-аутентификации: Bearer {{API 密钥}}.
Тело запроса
Если указано, система по возможности будет выполнять выборку детерминированным образом; запросы с одинаковыми seed и параметрами должны возвращать одинаковые результаты, но абсолютная детерминированность не гарантируется. Должно быть целым числом от 0 до 2147483647.Диапазон значений: [0, 2147483647]
Нужно ли помечать текущего говорящего в загруженном файле.
Формат входного аудио. Возможные значения: ‘pcm_s16le_16’ или ‘other’. pcm_s16le_16 требует, чтобы аудио было с частотой дискретизации 16kHz, 16-битным целочисленным, моно, в формате little-endian; по сравнению с кодированным waveform задержка ниже.Возможные значения:
pcm_s16le_16, otherУправляет случайностью вывода транскрипции. Диапазон значений — от 0.0 до 2.0; чем выше значение, тем более разнообразными и менее определенными будут результаты. Если параметр опущен, будет использована температура по умолчанию для выбранной модели (обычно 0).Диапазон значений: [0, 2]
Максимальное количество говорящих в загруженном файле. Может использоваться для помощи в различении говорящих; поддерживается до 32 говорящих.Диапазон значений: [1, 32]
Указывает код языка аудиофайла по ISO-639-1 или ISO-639-3. Предварительное указание иногда может повысить качество транскрипции. По умолчанию null; язык будет определен автоматически.
Нужно ли помечать в транскрипции аудиособытия, такие как(laughter)(footsteps).
HTTPS-ссылка на файл для транскрипции. Необходимо указать либо file, либо cloud_storage_url. Файл должен быть доступен по HTTPS и иметь размер менее 2GB; поддерживается любой допустимый HTTPS-адрес, включая облачные хранилища (AWS S3、GCS、Cloudflare R2 и т. д.), CDN или другие HTTPS-источники, а также предварительно подписанные ссылки с token или аутентификацией через URL-параметры запроса.
Является ли аудиофайл многоканальным, причем каждый канал содержит только одного говорящего. При включении каждый канал транскрибируется отдельно, а результаты объединяются; каждое слово в выходном содержимом содержит поле channel_index. Поддерживается до 5 каналов.
Порог диаризации говорящих (diarization). При более высоком значении вероятность разделения одного человека на нескольких ниже, но вероятность объединения разных людей в одного выше (выявляется меньше говорящих); при более низком значении вероятность разделения одного человека на нескольких выше, но вероятность объединения разных людей в одного ниже (говорящих больше). Можно задать только когда diarize=True и num_speakers=None. По умолчанию None; порог выбирается на основе id модели (обычно 0.22).Диапазон значений: [0.1, 0.4]
Детализация временных меток в транскрипции. ‘word’ предоставляет временные метки на уровне слов, ‘character’ — временные метки для каждого символа.Возможные значения:
none, word, characterИнформация об ответе
Ответ может быть одним из следующих типов:
Тип ответа 1
Тип ответа 1
Исходный текст транскрипции.
Список слов и соответствующей временной информации.
Индекс канала, соответствующий этой транскрипции (действительно для многоканального аудио).
Обнаруженный код языка (например, ‘eng’ означает английский).
Уникальный ID транскрипции для этого ответа.
Уверенность определения языка (от 0 до 1).