Monitoreo de modelos de lenguaje grandes

Descripción de las métricas

Todas las métricas siguientes se desglosan por modelo y se muestrean a nivel de minuto, pero según el intervalo de tiempo que seleccione, es posible que los puntos de muestreo no se muestren cada minuto. En ese caso, los puntos de muestreo dentro de ese intervalo de tiempo se promediarán antes de mostrarse.

Solicitudes por minuto (RPM) Muestra la cantidad de solicitudes de API realizadas por minuto, lo que le ayuda a comprender los patrones de uso y el nivel de concurrencia de la API.

Tasa de éxito de solicitudes Muestra el porcentaje de respuestas de API exitosas por minuto (códigos de estado que no sean 5xx), lo que refleja la disponibilidad de la API.

Cantidad promedio de tokens por solicitud Muestra la cantidad promedio de tokens de entrada y salida por solicitud cada minuto, lo que ayuda a comprender los patrones de consumo de tokens.

Latencia de extremo a extremo (E2E) Muestra el tiempo total que necesita el modelo para generar una respuesta completa en las solicitudes de cada minuto. Incluye métricas de latencia del percentil 99, percentil 95 y promedio.

Tiempo hasta generar el primer token (TTFT)

Esta métrica solo se rastrea en solicitudes en streaming con el parámetro stream=true habilitado.

Muestra el tiempo necesario para procesar el prompt y generar el primer token de salida en las solicitudes de cada minuto. Incluye métricas de latencia del percentil 99, percentil 95 y promedio.

Tiempo por token de salida (TPOT)

Esta métrica solo se rastrea en solicitudes en streaming con el parámetro stream=true habilitado.

Muestra el tiempo promedio entre tokens de salida consecutivos en las solicitudes de cada minuto. Incluye métricas de latencia del percentil 99, percentil 95 y promedio.

Primeros pasos

API de LLM

Proveedores de modelos

Funciones del modelo

Configuración de herramientas de terceros

Monitoreo de modelos de lenguaje grandes

Descripción de las métricas

​Descripción de las métricas

Descripción de las métricas