Описание метрик
Все приведенные ниже метрики разбиты по моделям и собираются с минутной частотой, однако в зависимости от выбранного вами временного интервала точки выборки могут отображаться не для каждой минуты. В этом случае точки выборки внутри данного временного интервала будут усреднены перед отображением.
- Количество запросов в минуту (RPM) Показывает количество API-запросов, отправляемых каждую минуту, помогая понять шаблоны использования и уровень параллельной нагрузки на API.
- Процент успешных запросов Показывает процент успешных ответов API за минуту (коды состояния не 5xx), отражая доступность API.
- Среднее количество токенов на запрос Показывает среднее количество входных и выходных токенов на запрос за минуту, помогая понять модели потребления токенов.
- Сквозная задержка (E2E) Показывает общее время, необходимое модели для генерации полного ответа в запросах за каждую минуту. Включает метрики задержки для 99-го перцентиля, 95-го перцентиля и среднего значения.
-
Время до генерации первого токена (TTFT)
Показывает время, необходимое для обработки Prompt и генерации первого выходного токена в запросах за каждую минуту. Включает метрики задержки для 99-го перцентиля, 95-го перцентиля и среднего значения.Эта метрика отслеживается только для потоковых запросов с включенным параметром
stream=true. -
Время на каждый выходной токен (TPOT)
Показывает среднее время между последовательными выходными token в запросах за каждую минуту. Включает метрики задержки для 99-го перцентиля, 95-го перцентиля и среднего значения.Эта метрика отслеживается только для потоковых запросов с включенным параметром
stream=true.