Перейти к основному содержанию
JieKou AI предоставляет комплексные метрики мониторинга для использования API больших языковых моделей. Эти метрики позволяют получить глубокое представление о доступности и производительности запросов к API LLM. Вы можете просматривать метрики мониторинга на странице мониторинга больших языковых моделей (LLM).

Описание метрик

Все приведенные ниже метрики разбиты по моделям и собираются с минутной частотой, однако в зависимости от выбранного вами временного интервала точки выборки могут отображаться не для каждой минуты. В этом случае точки выборки внутри данного временного интервала будут усреднены перед отображением.
  • Количество запросов в минуту (RPM) Показывает количество API-запросов, отправляемых каждую минуту, помогая понять шаблоны использования и уровень параллельной нагрузки на API.
  • Процент успешных запросов Показывает процент успешных ответов API за минуту (коды состояния не 5xx), отражая доступность API.
  • Среднее количество токенов на запрос Показывает среднее количество входных и выходных токенов на запрос за минуту, помогая понять модели потребления токенов.
  • Сквозная задержка (E2E) Показывает общее время, необходимое модели для генерации полного ответа в запросах за каждую минуту. Включает метрики задержки для 99-го перцентиля, 95-го перцентиля и среднего значения.
  • Время до генерации первого токена (TTFT)
    Эта метрика отслеживается только для потоковых запросов с включенным параметром stream=true.
    Показывает время, необходимое для обработки Prompt и генерации первого выходного токена в запросах за каждую минуту. Включает метрики задержки для 99-го перцентиля, 95-го перцентиля и среднего значения.
  • Время на каждый выходной токен (TPOT)
    Эта метрика отслеживается только для потоковых запросов с включенным параметром stream=true.
    Показывает среднее время между последовательными выходными token в запросах за каждую минуту. Включает метрики задержки для 99-го перцентиля, 95-го перцентиля и среднего значения.