Мониторинг больших языковых моделей

JieKou AI предоставляет комплексные метрики мониторинга для использования API больших языковых моделей. Эти метрики позволяют получить глубокое представление о доступности и производительности запросов к API LLM. Вы можете просматривать метрики мониторинга на странице мониторинга больших языковых моделей (LLM).

Описание метрик

Все приведенные ниже метрики разбиты по моделям и собираются с минутной частотой, однако в зависимости от выбранного вами временного интервала точки выборки могут отображаться не для каждой минуты. В этом случае точки выборки внутри данного временного интервала будут усреднены перед отображением.

Количество запросов в минуту (RPM) Показывает количество API-запросов, отправляемых каждую минуту, помогая понять шаблоны использования и уровень параллельной нагрузки на API.
Процент успешных запросов Показывает процент успешных ответов API за минуту (коды состояния не 5xx), отражая доступность API.
Среднее количество токенов на запрос Показывает среднее количество входных и выходных токенов на запрос за минуту, помогая понять модели потребления токенов.
Сквозная задержка (E2E) Показывает общее время, необходимое модели для генерации полного ответа в запросах за каждую минуту. Включает метрики задержки для 99-го перцентиля, 95-го перцентиля и среднего значения.
Время до генерации первого токена (TTFT)
Эта метрика отслеживается только для потоковых запросов с включенным параметром stream=true.
Показывает время, необходимое для обработки Prompt и генерации первого выходного токена в запросах за каждую минуту. Включает метрики задержки для 99-го перцентиля, 95-го перцентиля и среднего значения.
Время на каждый выходной токен (TPOT)
Эта метрика отслеживается только для потоковых запросов с включенным параметром stream=true.
Показывает среднее время между последовательными выходными token в запросах за каждую минуту. Включает метрики задержки для 99-го перцентиля, 95-го перцентиля и среднего значения.

​Описание метрик

Описание метрик