Monitoramento de grandes modelos de linguagem

Descrição das métricas

Todas as métricas abaixo são segmentadas por modelo e amostradas em nível de minuto, mas, dependendo do intervalo de tempo selecionado, os pontos de amostragem podem não ser exibidos a cada minuto. Nesse caso, os pontos de amostragem dentro desse intervalo de tempo serão calculados como média e exibidos.

Solicitações por minuto (RPM) Exibe a quantidade de solicitações de API enviadas por minuto, ajudando você a entender os padrões de uso e o nível de concorrência da API.

Taxa de sucesso das solicitações Exibe a porcentagem de respostas de API bem-sucedidas por minuto (códigos de status que não sejam 5xx), refletindo a disponibilidade da API.

Quantidade média de Tokens por solicitação Exibe a quantidade média de Tokens de entrada e saída por solicitação a cada minuto, ajudando a entender os padrões de consumo de Tokens.

Latência de ponta a ponta (E2E) Exibe o tempo total necessário para que o modelo gere uma resposta completa nas solicitações de cada minuto. Inclui métricas de latência do percentil 99, percentil 95 e média.

Tempo para gerar o primeiro Token (TTFT)

Esta métrica é rastreada apenas em solicitações de streaming com o parâmetro stream=true habilitado.

Exibe o tempo necessário para processar o Prompt e gerar o primeiro Token de saída nas solicitações de cada minuto. Inclui métricas de latência do percentil 99, percentil 95 e média.

Tempo por Token de saída (TPOT)

Esta métrica é rastreada apenas em solicitações de streaming com o parâmetro stream=true habilitado.

Exibe o tempo médio entre tokens de saída consecutivos nas solicitações de cada minuto. Inclui métricas de latência do percentil 99, percentil 95 e média.

Introdução

API de LLM

Provedores de modelos

Recursos do modelo

Configuração de ferramentas de terceiros

Monitoramento de grandes modelos de linguagem

Descrição das métricas

​Descrição das métricas

Descrição das métricas