ElevenLabs преобразование текста в речь Flash V2
Аудио
ElevenLabs преобразование текста в речь Flash V2
POST
ElevenLabs преобразование текста в речь Flash V2
Преобразует текст в речь с использованием выбранного вами голоса и возвращает аудио.
Заголовки запроса
Перечисляемое значение:
application/jsonФормат Bearer-аутентификации: Bearer {{API ключ}}.
Тело запроса
Если указано, система будет стремиться выполнять выборку детерминированно. Повторные запросы с одинаковыми seed и параметрами должны возвращать одинаковый результат, но полная детерминированность не гарантируется.Диапазон значений: [0, 4294967295]
Текст для преобразования в речь.
Включать ли режим Stream
ID голоса, который нужно использовать.
Текст, следующий за текстом текущего запроса. Используется для улучшения связности речи при объединении нескольких генераций.
Код языка для модели и нормализации текста (ISO 639-1). Если модель не поддерживает этот код языка, будет возвращена ошибка.
Выходной формат сгенерированного аудио. Формат: codec_sample_rate_bitrate. Битрейт MP3 192 kbps требует аккаунт уровня Creator или выше, частота дискретизации PCM 44.1 kHz требует аккаунт уровня Pro или выше.Допустимые значения:
mp3_22050_32, mp3_24000_48, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192, pcm_8000, pcm_16000, pcm_22050, pcm_24000, pcm_32000, pcm_44100, pcm_48000, ulaw_8000, alaw_8000, opus_48000_32, opus_48000_64, opus_48000_96, opus_48000_128, opus_48000_192Текст, предшествующий тексту текущего запроса. Используется для улучшения связности речи при объединении нескольких генераций.
Если true, используется IVC-версия голоса вместо PVC-версии. Это временное решение для высокой задержки PVC-версии.
Список request_id последующих образцов. Используется для сохранения связности речи при повторной генерации образцов. Можно передать не более 3 request_id.Длина массива: 0 - 3
Список request_id уже сгенерированных образцов перед текущей генерацией. Может использоваться для улучшения связности речи. Можно передать не более 3 request_id.Длина массива: 0 - 3
Управляет нормализацией текста. ‘auto’ — решение принимает система, ‘on’ — всегда нормализовать, ‘off’ — пропустить нормализацию.Допустимые значения:
auto, on, offУправляет языковой нормализацией текста для некоторых поддерживаемых языков, чтобы добиться более естественного произношения. Предупреждение: может значительно увеличить задержку. В настоящее время поддерживается только японский язык.
Список локаторов словарей произношения (id, version_id), которые нужно применить к тексту. Применяются по порядку. В каждом запросе может быть не более 3 локаторов.Длина массива: 0 - 3
Информация об ответе
Сгенерированный аудиофайл Формат:binary