Преобразует текст в речь, поддерживает различные голоса, управление эмоциями, регулировку скорости речи и другие функции. Ограничение длины текста — менее 10000 символов; если длина текста превышает 3000 символов, рекомендуется использовать потоковый вывод.
Текст, который необходимо синтезировать в речь. Ограничение длины — менее 10000 символов; если длина текста превышает 3000 символов, рекомендуется использовать потоковый вывод. Поддерживается переключение абзацев (символы новой строки), управление паузами (метка <#x#>), теги междометий/паралингвистических звуков (например, (laughs), (coughs) и т. д.; поддерживаются только speech-2.8-hd/turbo)
Регулировка высоты тона (низкий/яркий), диапазон [-100, 100]. Чем ближе значение к -100, тем ниже голос; чем ближе к 100, тем голос ярчеДиапазон значений: [-100, 100]
Регулировка тембра (бархатистый/звонкий), диапазон [-100, 100]. Чем ближе значение к -100, тем голос более насыщенный; чем ближе к 100, тем голос более звонкийДиапазон значений: [-100, 100]
Регулировка интенсивности (сила/мягкость), диапазон [-100, 100]. Чем ближе значение к -100, тем голос более твердый; чем ближе к 100, тем голос более мягкийДиапазон значений: [-100, 100]
Настройка аудиоэффекта; за один раз можно выбрать только один. Доступные значения: spacious_echo (эхо просторного помещения), auditorium_echo (трансляция в зале), lofi_telephone (телефонное искажение), robotic (электронный голос)Доступные значения: spacious_echo, auditorium_echo, lofi_telephone, robotic
Битрейт создаваемого аудио. Доступный диапазон: [32000, 64000, 128000, 256000], значение по умолчанию — 128000. Этот параметр действует только для аудио в формате mp3Доступные значения: 32000, 64000, 128000, 256000
Управление постоянным битрейтом аудио (cbr), доступные значения: false, true. Если этот параметр установлен в true, аудио будет кодироваться с постоянным битрейтом. Примечание: этот параметр действует только когда аудио настроено на потоковый вывод и формат аудио — mp3
Параметр, управляющий формой результата вывода. Доступные значения: url, hex; значение по умолчанию — hex. Этот параметр действует только в непотоковом сценарии; в потоковом сценарии поддерживается возврат только в форме hex. Возвращаемый url действителен 24 часаДоступные значения: url, hex
Громкость синтезированного аудио: чем больше значение, тем выше громкость. Диапазон значений: (0, 10], значение по умолчанию — 1.0Диапазон значений: [0, 10]
Скорость синтезированного аудио: чем больше значение, тем быстрее речь. Диапазон значений: [0.5, 2], значение по умолчанию — 1.0Диапазон значений: [0.5, 2]
Идентификатор голоса для синтезированного аудио. Если требуется настроить смешанный голос, задайте параметр timber_weights, а этот параметр оставьте пустым. Поддерживаются три типа голосов: системные голоса, клонированные голоса и голоса, созданные из текста
Управляет тем, нужно ли зачитывать формулы latex; по умолчанию false. Поддерживается только китайский язык; после включения этого параметра параметр language_boost будет установлен в Chinese
Включать ли нормализацию текста на китайском и английском языках. После включения может повысить качество чтения чисел, но немного увеличит задержку; значение по умолчанию — false
Управляет добавлением аудиоритмической метки в конец синтезированного аудио; значение по умолчанию — false. Этот параметр действует только для непотокового синтеза
Настраивает, содержит ли последний chunk склеенные голосовые данные в формате hex. Значение по умолчанию — false, то есть последний chunk содержит полные склеенные голосовые данные в формате hex
Вес каждого голоса в синтезированном аудио; должен заполняться синхронно с voice_id. Доступный диапазон значений: [1, 100]; поддерживается смешивание максимум 4 голосов. Чем выше доля отдельного голоса, тем выше сходство синтезированного голоса с этим голосомДиапазон значений: [1, 100]
Идентификатор голоса для синтезированного аудио; должен заполняться синхронно с параметром weight. Поддерживаются три типа голосов: системные голоса, клонированные голоса и голоса, созданные из текста
Управляет включением сервиса субтитров; значение по умолчанию — false. Этот параметр действует только в сценариях непотокового вывода и только для моделей speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd
Включите этот параметр, чтобы сделать переходы между подпредложениями более естественными; поддерживается только моделями speech-2.8-hd и speech-2.8-turbo
Определяет правила замены транскрипции или произношения для текста или символов, требующих специальной разметки. В китайском тексте тоны обозначаются цифрами: первый тон — 1, второй — 2, третий — 3, четвертый — 4, нейтральный тон — 5. Пример: [“燕少飞/(yan4)(shao3)(fei1)”, “omg/oh my god”]