Saltar al contenido principal
JieKou AI proporciona métricas de monitoreo completas para el uso de API de modelos de lenguaje grandes. Estas métricas le permiten obtener información detallada sobre la disponibilidad y el rendimiento de las solicitudes a la API de LLM. Puede ver las métricas de monitoreo en la página de monitoreo de modelos de lenguaje grandes (LLM).

Descripción de las métricas

Todas las métricas siguientes se desglosan por modelo y se muestrean a nivel de minuto, pero según el intervalo de tiempo que seleccione, es posible que los puntos de muestreo no se muestren cada minuto. En ese caso, los puntos de muestreo dentro de ese intervalo de tiempo se promediarán antes de mostrarse.
  • Solicitudes por minuto (RPM) Muestra la cantidad de solicitudes de API realizadas por minuto, lo que le ayuda a comprender los patrones de uso y el nivel de concurrencia de la API.
  • Tasa de éxito de solicitudes Muestra el porcentaje de respuestas de API exitosas por minuto (códigos de estado que no sean 5xx), lo que refleja la disponibilidad de la API.
  • Cantidad promedio de tokens por solicitud Muestra la cantidad promedio de tokens de entrada y salida por solicitud cada minuto, lo que ayuda a comprender los patrones de consumo de tokens.
  • Latencia de extremo a extremo (E2E) Muestra el tiempo total que necesita el modelo para generar una respuesta completa en las solicitudes de cada minuto. Incluye métricas de latencia del percentil 99, percentil 95 y promedio.
  • Tiempo hasta generar el primer token (TTFT)
    Esta métrica solo se rastrea en solicitudes en streaming con el parámetro stream=true habilitado.
    Muestra el tiempo necesario para procesar el prompt y generar el primer token de salida en las solicitudes de cada minuto. Incluye métricas de latencia del percentil 99, percentil 95 y promedio.
  • Tiempo por token de salida (TPOT)
    Esta métrica solo se rastrea en solicitudes en streaming con el parámetro stream=true habilitado.
    Muestra el tiempo promedio entre tokens de salida consecutivos en las solicitudes de cada minuto. Incluye métricas de latencia del percentil 99, percentil 95 y promedio.