跳转到主要内容
POST
https://api.jiekou.ai
/
v3
/
elevenlabs-tts-flash-v2
ElevenLabs 文字转语音 Flash V2
curl --request POST \
  --url https://api.jiekou.ai/v3/elevenlabs-tts-flash-v2 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "voice_id": "<string>",
  "next_text": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "previous_text": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "next_request_ids": [
    {}
  ],
  "previous_request_ids": [
    {}
  ],
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'
使用您选择的声音将文本转换为语音并返回音频。

请求头

Content-Type
string
必填
枚举值: application/json
Authorization
string
必填
Bearer 身份验证格式: Bearer {{API 密钥}}。

请求体

seed
integer
如指定,系统将尽量有确定性地采样。相同seed及参数的重复请求应返回相同结果,但不保证完全确定性。取值范围:[0, 4294967295]
text
string
必填
要转换为语音的文本。
voice_id
string
必填
要使用的语音ID。
next_text
string
当前请求文本之后的文本。用于在多次生成拼接时改善语音连贯性。
language_code
string
用于模型和文本规范化的语言代码(ISO 639-1)。如果模型不支持此语言代码,将返回错误。
output_format
string
默认值:"mp3_44100_128"
生成音频的输出格式。格式为 codec_sample_rate_bitrate。MP3的192kbps比特率需Creator及以上账户,PCM的44.1kHz采样率需Pro及以上账户。可选值:mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192
previous_text
string
当前请求文本之前的文本。用于在多次生成拼接时改善语音连贯性。
use_pvc_as_ivc
boolean
默认值:false
若为true,使用IVC版本的语音而不是PVC版本。此为针对PVC版本较高延迟的临时方案。
voice_settings
object
next_request_ids
array
后续样本的request_id列表。用于在重新生成样本时保持语音连贯性。最多可传3个request_id。数组长度:0 - 3
previous_request_ids
array
当前生成之前已生成样本的request_id列表。可用于改善语音连贯性。最多可传3个request_id。数组长度:0 - 3
apply_text_normalization
string
默认值:"auto"
控制文本规范化。‘auto’由系统决定,‘on’总是规范化,‘off’则跳过。可选值:auto, on, off
apply_language_text_normalization
boolean
默认值:false
控制针对某些支持语言的语言文本规范化以实现更自然发音。警告:可能大幅增加延迟。目前仅支持日语。
pronunciation_dictionary_locators
array
需要应用于文本的发音词典定位器(id, version_id)列表。按顺序生效。每个请求最多可有3个定位器。数组长度:0 - 3

响应

生成的音频文件 格式: binary