Fish Audio S2 Pro Text to Speech
音频
Fish Audio S2 Pro Text to Speech
POST
Fish Audio S2 Pro Text to Speech
Fish Audio S2 Pro 文本转语音模型,将文本转换为自然语音,支持参考音色、采样控制、分段、音频格式和韵律控制。Documentation Index
Fetch the complete documentation index at: https://docs.jiekou.ai/llms.txt
Use this file to discover all available pages before exploring further.
请求头
枚举值:
application/jsonBearer 身份验证格式: Bearer {{API 密钥}}。
请求体
需要转换为语音的文本。S2-Pro 多说话人文本可使用 <|speaker:0|>你好<|speaker:1|>你好呀 标签。
核采样多样性控制。取值范围:[0, 1]
输出音频格式。可选值:
wav, pcm, mp3, opus延迟档位。可选值:
low, normal, balanced韵律控制。
对中英文文本进行规范化。
用于零样本声音克隆的参考音频样本。
MP3 比特率,单位 kbps。可选值:
64, 128, 192输出采样率 Hz。为空时使用格式默认值,opus 为 48000 Hz,其他通常为 44100 Hz。
表现力控制。取值范围:[0, 1]
文本分段大小。取值范围:[100, 300]
Opus 比特率,单位 bps,-1000 表示自动。可选值:
-1000, 24000, 32000, 48000, 64000音色模型 ID;多说话人场景可传入与 speaker 索引匹配的数组。
每个分段的最大音频 token 数。
分段前的最小字符数。取值范围:[0, 100]
降低音频模式重复的惩罚系数。
提前停止阈值。取值范围:[0, 1]
使用前序音频分段作为上下文。
响应信息
生成的音频。 格式:binary