Преобразует текст в речь и поддерживает различные голоса, управление эмоциями, настройку скорости речи и другие функции. Ограничение длины текста — менее 10000 символов. Если длина текста превышает 3000 символов, рекомендуется использовать потоковый вывод.
Текст, который необходимо синтезировать в речь. Ограничение длины — менее 10000 символов. Если длина текста превышает 3000 символов, рекомендуется использовать потоковый вывод. Поддерживает переключение абзацев (символы новой строки), управление паузами (метки <#x#>), теги междометий/звуковых реакций (например, (laughs), (coughs) и т. д.; поддерживается только speech-2.8-hd/turbo)
Настройка высоты звучания (низкий/яркий), диапазон [-100, 100]. Чем ближе значение к -100, тем ниже голос; чем ближе к 100, тем ярче голосДиапазон значений: [-100, 100]
Настройка тембра (насыщенный/звонкий), диапазон [-100, 100]. Чем ближе значение к -100, тем более густой и насыщенный голос; чем ближе значение к 100, тем более звонкий голосДиапазон значений: [-100, 100]
Настройка интенсивности (сила/мягкость), диапазон [-100, 100]. Чем ближе значение к -100, тем более твердый и энергичный голос; чем ближе к 100, тем более мягкий голосДиапазон значений: [-100, 100]
Битрейт генерируемого аудио. Возможный диапазон: [32000, 64000, 128000, 256000], значение по умолчанию — 128000. Этот параметр действует только для аудио в формате mp3Возможные значения: 32000, 64000, 128000, 256000
Управление постоянным битрейтом аудио (cbr); возможные значения: false, true. Если этот параметр установлен в true, аудио будет кодироваться с постоянным битрейтом. Внимание: параметр действует только если аудио настроено на потоковый вывод и формат аудио — mp3
Параметр, управляющий формой результата вывода. Возможные значения: url, hex; значение по умолчанию — hex. Этот параметр действует только в непотоковом сценарии; в потоковом сценарии поддерживается возврат только в форме hex. Возвращаемый url действителен 24 часаВозможные значения: url, hex
Громкость синтезированного аудио: чем больше значение, тем выше громкость. Диапазон значений: (0, 10], значение по умолчанию — 1.0Диапазон значений: [0, 10]
Интонационная высота синтезированного аудио. Диапазон значений: [-12, 12], значение по умолчанию — 0, где 0 означает вывод исходного тембраДиапазон значений: [-12, 12]
Скорость речи синтезированного аудио: чем больше значение, тем быстрее речь. Диапазон значений: [0.5, 2], значение по умолчанию — 1.0Диапазон значений: [0.5, 2]
Идентификатор голоса для синтезированного аудио. Если нужно настроить смешанный голос, задайте параметр timber_weights, а этот параметр оставьте пустым. Поддерживаются три типа: системные голоса, клонированные голоса и голоса, сгенерированные из текста
Управляет тем, нужно ли озвучивать формулы latex; по умолчанию false. Поддерживается только китайский язык. После включения этого параметра параметр language_boost будет установлен в Chinese
Включать ли нормализацию текста для китайского и английского языков. После включения может улучшить качество в сценариях чтения чисел, но немного увеличит задержку. Значение по умолчанию — false
Управляет добавлением ритмического аудиоидентификатора в конец синтезированного аудио. Значение по умолчанию — false. Этот параметр действует только для непотокового синтеза
Задает, содержит ли последний chunk объединенные аудиоданные в формате hex. Значение по умолчанию — false, то есть последний chunk содержит полные объединенные аудиоданные в формате hex
Вес каждого голоса в синтезированном аудио; должен заполняться вместе с voice_id. Диапазон возможных значений: [1, 100]. Поддерживается смешивание максимум 4 голосов. Чем выше доля одного голоса, тем сильнее синтезированный голос похож на негоДиапазон значений: [1, 100]
Идентификатор голоса для синтезированного аудио; должен заполняться вместе с параметром weight. Поддерживаются три типа: системные голоса, клонированные голоса и голоса, сгенерированные из текста
Управляет включением службы субтитров. Значение по умолчанию — false. Этот параметр действует только в сценарии непотокового вывода и только для моделей speech-2.6-hd, speech-2.6-turbo, speech-02-turbo, speech-02-hd, speech-01-turbo, speech-01-hd
Определяет правила замены чтения или произношения для текста или символов, которые требуют специальной разметки. В китайском тексте тоны обозначаются цифрами: первый тон — 1, второй — 2, третий — 3, четвертый — 4, нейтральный тон — 5. Пример: [“燕少飞/(yan4)(shao3)(fei1)”, “omg/oh my god”]