Перейти к основному содержанию
POST
/
v3
/
elevenlabs-tts-v3
ElevenLabs преобразование текста в речь V3
curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-v3 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "stream": true,
  "voice_id": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'
Преобразует текст в речь с использованием выбранного вами голоса и возвращает аудио.

Заголовки запроса

Content-Type
string
обязательно
Перечисляемое значение: application/json
Authorization
string
обязательно
Формат аутентификации Bearer: Bearer {{API 密钥}}.

Тело запроса

seed
integer
Если указано, система будет стараться выполнять выборку детерминированно. Повторные запросы с тем же seed и параметрами должны возвращать одинаковый результат, но полная детерминированность не гарантируется.Диапазон значений: [0, 4294967295]
text
string
обязательно
Текст для преобразования в речь.
stream
boolean
Включать ли режим Stream
voice_id
string
обязательно
ID голоса, который нужно использовать.
language_code
string
Код языка (ISO 639-1), используемый для модели и нормализации текста. Если модель не поддерживает этот код языка, будет возвращена ошибка.
output_format
string
по умолчанию:"mp3_44100_128"
Выходной формат сгенерированного аудио. Формат: codec_sample_rate_bitrate. Битрейт 192 kbps для MP3 требует аккаунта Creator или выше, частота дискретизации 44.1 kHz для PCM требует аккаунта Pro или выше.Допустимые значения: mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192
use_pvc_as_ivc
boolean
по умолчанию:false
Если true, используется IVC-версия голоса вместо PVC-версии. Это временное решение для более высокой задержки PVC-версии.
voice_settings
object
apply_text_normalization
string
по умолчанию:"auto"
Управляет нормализацией текста. ‘auto’ — решение принимает система, ‘on’ — всегда выполнять нормализацию, ‘off’ — пропускать.Допустимые значения: auto, on, off
apply_language_text_normalization
boolean
по умолчанию:false
Управляет языковой нормализацией текста для некоторых поддерживаемых языков, чтобы обеспечить более естественное произношение. Предупреждение: может значительно увеличить задержку. В настоящее время поддерживается только японский.
pronunciation_dictionary_locators
array
Список локаторов словарей произношения (id, version_id), которые нужно применить к тексту. Применяются по порядку. В каждом запросе может быть не более 3 локаторов.Длина массива: 0 - 3

Информация об ответе

Сгенерированный аудиофайл Формат: binary