转录音频或视频文件。当 use_multi_channel 为 true 且上传的音频有多个声道时,返回 ‘transcripts’ 对象,每个声道一个转录。否则返回单一转录结果。
请求头
Bearer 身份验证格式: Bearer {{API 密钥}}。
请求体
如指定,系统会尽力按确定性方式采样,相同 seed 和参数的请求应返回相同结果,但不保证绝对确定性。必须为 0 到 2147483647 之间的整数。取值范围:[0, 2147483647]
输入音频格式。可选 ‘pcm_s16le_16’ 或 ‘other’。pcm_s16le_16 要求音频为 16kHz 采样率、16 位整型、单声道、小端格式,相较于编码波形延迟较低。可选值:pcm_s16le_16, other
控制转录输出的随机性。取值范围 0.0 ~ 2.0,值越高结果越多样且越不确定。如省略,将使用所选模型的默认温度(通常为0)。取值范围:[0, 2]
上传文件中讲话者的最大数量。可用于辅助区分说话人,最多支持 32 名讲话者。取值范围:[1, 32]
指定音频文件的 ISO-639-1 或 ISO-639-3 语言代码。提前指出有时可提升转录表现。默认 null,将自动识别语言。
是否在转录中标记如(laughter)(footsteps)等音频事件。
待转录文件的 HTTPS 链接。file 和 cloud_storage_url 必须二选一。文件须可通过 HTTPS 访问且小于 2GB,支持任何合法 HTTPS 地址,包括云存储(AWS S3、GCS、Cloudflare R2 等)、CDN 或其他 HTTPS 来源,支持带 token 的预签名链接或 URL 查询参数鉴权。
音频文件是否为多声道,且每个声道仅包含单一讲话人。启用后将独立转录每个声道并合成结果,输出内容的每个单词包含 channel_index 字段,最多支持 5 个声道。
说话人分离(diarization)阈值。值大时,一个人被分为多人的概率低,但不同人被合并为一人的概率高(识别出的讲话人较少);值小时,一个人被分成多人的概率提高,但不同人合并为一人的概率降低(讲话人数更多)。仅当 diarize=True 且 num_speakers=None 时可设。默认 None,会根据模型 id 选择阈值(通常 0.22)。取值范围:[0.1, 0.4]
转录内容中时间戳的粒度。‘word’ 提供单词级时间戳,‘character’ 提供每个字符的时间戳。可选值:none, word, character
单词及其时间信息列表。
此单词或声音的类型。‘audio_event’ 用于非单词声音,如笑声或脚步声等。可选值:word, spacing, audio_event
预测该单词时的概率对数。logprob 范围为 [-infinity, 0],值越高表示模型预测越有信心。
每个音频声道对应的转录列表。每条转录包含所属声道的文本及单词级别详细信息。
单词及其时间信息列表。
此单词或声音的类型。‘audio_event’ 用于非单词声音,如笑声或脚步声等。可选值:word, spacing, audio_event
预测该单词时的概率对数。logprob 范围为 [-infinity, 0],值越高表示模型预测越有信心。