跳转到主要内容
POST
https://api.jiekou.ai
/
v3
/
elevenlabs-scribe-v2
ElevenLabs 语音转文本 V2
curl --request POST \
  --url https://api.jiekou.ai/v3/elevenlabs-scribe-v2 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "diarize": true,
  "file_format": "<string>",
  "temperature": 123,
  "num_speakers": 123,
  "language_code": "<string>",
  "tag_audio_events": true,
  "cloud_storage_url": "<string>",
  "use_multi_channel": true,
  "diarization_threshold": 123,
  "timestamps_granularity": "<string>"
}
'
转录音频或视频文件。当 use_multi_channel 为 true 且上传的音频有多个声道时,返回 ‘transcripts’ 对象,每个声道一个转录。否则返回单一转录结果。

请求头

Content-Type
string
必填
枚举值: application/json
Authorization
string
必填
Bearer 身份验证格式: Bearer {{API 密钥}}。

请求体

seed
integer
如指定,系统会尽力按确定性方式采样,相同 seed 和参数的请求应返回相同结果,但不保证绝对确定性。必须为 0 到 2147483647 之间的整数。取值范围:[0, 2147483647]
diarize
boolean
默认值:false
是否标注上传文件中当前说话者。
file_format
string
默认值:"other"
输入音频格式。可选 ‘pcm_s16le_16’ 或 ‘other’。pcm_s16le_16 要求音频为 16kHz 采样率、16 位整型、单声道、小端格式,相较于编码波形延迟较低。可选值:pcm_s16le_16, other
temperature
number
控制转录输出的随机性。取值范围 0.0 ~ 2.0,值越高结果越多样且越不确定。如省略,将使用所选模型的默认温度(通常为0)。取值范围:[0, 2]
num_speakers
integer
上传文件中讲话者的最大数量。可用于辅助区分说话人,最多支持 32 名讲话者。取值范围:[1, 32]
language_code
string
指定音频文件的 ISO-639-1 或 ISO-639-3 语言代码。提前指出有时可提升转录表现。默认 null,将自动识别语言。
tag_audio_events
boolean
默认值:true
是否在转录中标记如(laughter)(footsteps)等音频事件。
cloud_storage_url
string
必填
待转录文件的 HTTPS 链接。file 和 cloud_storage_url 必须二选一。文件须可通过 HTTPS 访问且小于 2GB,支持任何合法 HTTPS 地址,包括云存储(AWS S3、GCS、Cloudflare R2 等)、CDN 或其他 HTTPS 来源,支持带 token 的预签名链接或 URL 查询参数鉴权。
use_multi_channel
boolean
默认值:false
音频文件是否为多声道,且每个声道仅包含单一讲话人。启用后将独立转录每个声道并合成结果,输出内容的每个单词包含 channel_index 字段,最多支持 5 个声道。
diarization_threshold
number
说话人分离(diarization)阈值。值大时,一个人被分为多人的概率低,但不同人被合并为一人的概率高(识别出的讲话人较少);值小时,一个人被分成多人的概率提高,但不同人合并为一人的概率降低(讲话人数更多)。仅当 diarize=True 且 num_speakers=None 时可设。默认 None,会根据模型 id 选择阈值(通常 0.22)。取值范围:[0.1, 0.4]
timestamps_granularity
string
默认值:"word"
转录内容中时间戳的粒度。‘word’ 提供单词级时间戳,‘character’ 提供每个字符的时间戳。可选值:none, word, character

响应

响应可能为以下响应类型之一:
text
string
必填
转录的原始文本。
words
array
必填
单词及其时间信息列表。
channel_index
integer
该条转录对应的声道索引(多声道音频时有效)。
language_code
string
必填
检测到的语言代码(例如 ‘eng’ 表示英语)。
transcription_id
string
该响应的转录唯一 ID。
language_probability
number
必填
语言检测的置信度(0 到 1 之间)。
transcripts
array
必填
每个音频声道对应的转录列表。每条转录包含所属声道的文本及单词级别详细信息。
transcription_id
string
该响应的转录唯一 ID。