Surveillance des grands modèles de langage

Description des métriques

Toutes les métriques ci-dessous sont ventilées par modèle et échantillonnées à la minute, mais selon l’intervalle de temps que vous sélectionnez, les points d’échantillonnage peuvent ne pas être affichés pour chaque minute. Dans ce cas, les points d’échantillonnage de cet intervalle de temps seront moyennés puis affichés.

Requêtes par minute (RPM) Affiche le nombre de requêtes API émises chaque minute, afin de vous aider à comprendre les schémas d’utilisation et le niveau de concurrence de l’API.

Taux de réussite des requêtes Affiche le pourcentage de réponses API réussies par minute (codes d’état non 5xx), reflétant la disponibilité de l’API.

Nombre moyen de Tokens par requête Affiche le nombre moyen de Tokens d’entrée et de sortie par requête chaque minute, ce qui aide à comprendre les schémas de consommation de Tokens.

Latence de bout en bout (E2E) Affiche le temps total nécessaire au modèle pour générer une réponse complète dans les requêtes de chaque minute. Inclut les métriques de latence au 99e percentile, au 95e percentile et moyenne.

Temps de génération du premier Token (TTFT)

Cette métrique n’est suivie que pour les requêtes en streaming avec le paramètre stream=true activé.

Affiche le temps nécessaire pour traiter le Prompt et générer le premier Token de sortie dans les requêtes de chaque minute. Inclut les métriques de latence au 99e percentile, au 95e percentile et moyenne.

Temps par Token de sortie (TPOT)

Cette métrique n’est suivie que pour les requêtes en streaming avec le paramètre stream=true activé.

Affiche le temps moyen entre des tokens de sortie consécutifs dans les requêtes de chaque minute. Inclut les métriques de latence au 99e percentile, au 95e percentile et moyenne.

Bien démarrer

API LLM

Fournisseurs de modèles

Fonctionnalités des modèles

Configuration des outils tiers

Surveillance des grands modèles de langage

Description des métriques

​Description des métriques

Description des métriques