ElevenLabs преобразование текста в речь V3

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-v3 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "stream": true,
  "voice_id": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'

POST

elevenlabs-tts-v3

curl --request POST \
  --url https://api.highwayapi.ai/v3/elevenlabs-tts-v3 \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "seed": 123,
  "text": "<string>",
  "stream": true,
  "voice_id": "<string>",
  "language_code": "<string>",
  "output_format": "<string>",
  "use_pvc_as_ivc": true,
  "voice_settings": {
    "speed": 123,
    "style": 123,
    "stability": 123,
    "similarity_boost": 123,
    "use_speaker_boost": true
  },
  "apply_text_normalization": "<string>",
  "apply_language_text_normalization": true,
  "pronunciation_dictionary_locators": [
    {
      "version_id": "<string>",
      "pronunciation_dictionary_id": "<string>"
    }
  ]
}
'

Преобразует текст в речь с использованием выбранного вами голоса и возвращает аудио.

Заголовки запроса

Content-Type

string

обязательно

Перечисляемое значение: application/json

Authorization

string

обязательно

Формат аутентификации Bearer: Bearer {{API 密钥}}.

Тело запроса

seed

integer

Если указано, система будет стараться выполнять выборку детерминированно. Повторные запросы с тем же seed и параметрами должны возвращать одинаковый результат, но полная детерминированность не гарантируется.Диапазон значений: [0, 4294967295]

text

string

обязательно

Текст для преобразования в речь.

stream

boolean

Включать ли режим Stream

voice_id

string

обязательно

ID голоса, который нужно использовать.

language_code

string

Код языка (ISO 639-1), используемый для модели и нормализации текста. Если модель не поддерживает этот код языка, будет возвращена ошибка.

output_format

string

по умолчанию:"mp3_44100_128"

Выходной формат сгенерированного аудио. Формат: codec_sample_rate_bitrate. Битрейт 192 kbps для MP3 требует аккаунта Creator или выше, частота дискретизации 44.1 kHz для PCM требует аккаунта Pro или выше.Допустимые значения: mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192

use_pvc_as_ivc

boolean

по умолчанию:false

Если true, используется IVC-версия голоса вместо PVC-версии. Это временное решение для более высокой задержки PVC-версии.

voice_settings

object

Скрыть properties

speed

number

по умолчанию:1

Регулирует скорость речи. 1.0 — скорость по умолчанию; значение меньше 1.0 замедляет речь, значение больше 1.0 ускоряет речь.

style

number

по умолчанию:0

Определяет степень выразительности стиля речи. Пытается усилить стиль исходного говорящего. При значении, отличном от 0, расходуется больше вычислительных ресурсов и может увеличиться задержка.

stability

number

Определяет стабильность генерации речи и случайность между отдельными генерациями. Более низкие значения дают более широкий эмоциональный диапазон, более высокие значения могут привести к монотонной речи.

similarity_boost

number

Определяет, насколько точно AI пытается воспроизвести исходный голос.

use_speaker_boost

boolean

по умолчанию:true

Усиливает сходство с исходным говорящим. Требует немного более высокой вычислительной нагрузки и увеличивает задержку.

apply_text_normalization

string

по умолчанию:"auto"

Управляет нормализацией текста. ‘auto’ — решение принимает система, ‘on’ — всегда выполнять нормализацию, ‘off’ — пропускать.Допустимые значения: auto, on, off

apply_language_text_normalization

boolean

по умолчанию:false

Управляет языковой нормализацией текста для некоторых поддерживаемых языков, чтобы обеспечить более естественное произношение. Предупреждение: может значительно увеличить задержку. В настоящее время поддерживается только японский.

pronunciation_dictionary_locators

array

Список локаторов словарей произношения (id, version_id), которые нужно применить к тексту. Применяются по порядку. В каждом запросе может быть не более 3 локаторов.Длина массива: 0 - 3

Скрыть properties

version_id

string

ID версии словаря произношения. Если не указано, используется последняя версия.

pronunciation_dictionary_id

string

обязательно

ID словаря произношения.

Информация об ответе

Сгенерированный аудиофайл Формат: binary

ElevenLabs преобразование текста в речь Turbo v2

Быстрое клонирование аудио ElevenLabs

​Заголовки запроса

​Тело запроса

​Информация об ответе

Заголовки запроса

Тело запроса

Информация об ответе