Descrição das métricas
Todas as métricas abaixo são segmentadas por modelo e amostradas em nível de minuto, mas, dependendo do intervalo de tempo selecionado, os pontos de amostragem podem não ser exibidos a cada minuto. Nesse caso, os pontos de amostragem dentro desse intervalo de tempo serão calculados como média e exibidos.
- Solicitações por minuto (RPM) Exibe a quantidade de solicitações de API enviadas por minuto, ajudando você a entender os padrões de uso e o nível de concorrência da API.
- Taxa de sucesso das solicitações Exibe a porcentagem de respostas de API bem-sucedidas por minuto (códigos de status que não sejam 5xx), refletindo a disponibilidade da API.
- Quantidade média de Tokens por solicitação Exibe a quantidade média de Tokens de entrada e saída por solicitação a cada minuto, ajudando a entender os padrões de consumo de Tokens.
- Latência de ponta a ponta (E2E) Exibe o tempo total necessário para que o modelo gere uma resposta completa nas solicitações de cada minuto. Inclui métricas de latência do percentil 99, percentil 95 e média.
-
Tempo para gerar o primeiro Token (TTFT)
Exibe o tempo necessário para processar o Prompt e gerar o primeiro Token de saída nas solicitações de cada minuto. Inclui métricas de latência do percentil 99, percentil 95 e média.Esta métrica é rastreada apenas em solicitações de streaming com o parâmetro
stream=truehabilitado. -
Tempo por Token de saída (TPOT)
Exibe o tempo médio entre tokens de saída consecutivos nas solicitações de cada minuto. Inclui métricas de latência do percentil 99, percentil 95 e média.Esta métrica é rastreada apenas em solicitações de streaming com o parâmetro
stream=truehabilitado.