Pular para o conteúdo principal
A JieKou AI oferece métricas de monitoramento abrangentes para o uso de APIs de grandes modelos de linguagem. Essas métricas permitem que você obtenha insights detalhados sobre a disponibilidade e o desempenho das solicitações à API de LLM. Você pode visualizar as métricas de monitoramento na página de monitoramento de grandes modelos de linguagem (LLM).

Descrição das métricas

Todas as métricas abaixo são segmentadas por modelo e amostradas em nível de minuto, mas, dependendo do intervalo de tempo selecionado, os pontos de amostragem podem não ser exibidos a cada minuto. Nesse caso, os pontos de amostragem dentro desse intervalo de tempo serão calculados como média e exibidos.
  • Solicitações por minuto (RPM) Exibe a quantidade de solicitações de API enviadas por minuto, ajudando você a entender os padrões de uso e o nível de concorrência da API.
  • Taxa de sucesso das solicitações Exibe a porcentagem de respostas de API bem-sucedidas por minuto (códigos de status que não sejam 5xx), refletindo a disponibilidade da API.
  • Quantidade média de Tokens por solicitação Exibe a quantidade média de Tokens de entrada e saída por solicitação a cada minuto, ajudando a entender os padrões de consumo de Tokens.
  • Latência de ponta a ponta (E2E) Exibe o tempo total necessário para que o modelo gere uma resposta completa nas solicitações de cada minuto. Inclui métricas de latência do percentil 99, percentil 95 e média.
  • Tempo para gerar o primeiro Token (TTFT)
    Esta métrica é rastreada apenas em solicitações de streaming com o parâmetro stream=true habilitado.
    Exibe o tempo necessário para processar o Prompt e gerar o primeiro Token de saída nas solicitações de cada minuto. Inclui métricas de latência do percentil 99, percentil 95 e média.
  • Tempo por Token de saída (TPOT)
    Esta métrica é rastreada apenas em solicitações de streaming com o parâmetro stream=true habilitado.
    Exibe o tempo médio entre tokens de saída consecutivos nas solicitações de cada minuto. Inclui métricas de latência do percentil 99, percentil 95 e média.