ElevenLabs 文字转语音 V3
音频
ElevenLabs 文字转语音 V3
POST
ElevenLabs 文字转语音 V3
使用您选择的声音将文本转换为语音并返回音频。
请求头
枚举值:
application/jsonBearer 身份验证格式: Bearer {{API 密钥}}。
请求体
如指定,系统将尽量有确定性地采样。相同seed及参数的重复请求应返回相同结果,但不保证完全确定性。取值范围:[0, 4294967295]
要转换为语音的文本。
是否开启 Stream 模式
要使用的语音ID。
用于模型和文本规范化的语言代码(ISO 639-1)。如果模型不支持此语言代码,将返回错误。
生成音频的输出格式。格式为 codec_sample_rate_bitrate。MP3的192kbps比特率需Creator及以上账户,PCM的44.1kHz采样率需Pro及以上账户。可选值:
mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192若为true,使用IVC版本的语音而不是PVC版本。此为针对PVC版本较高延迟的临时方案。
控制文本规范化。‘auto’由系统决定,‘on’总是规范化,‘off’则跳过。可选值:
auto, on, off控制针对某些支持语言的语言文本规范化以实现更自然发音。警告:可能大幅增加延迟。目前仅支持日语。
需要应用于文本的发音词典定位器(id, version_id)列表。按顺序生效。每个请求最多可有3个定位器。数组长度:0 - 3
响应信息
生成的音频文件 格式:binary