Passer au contenu principal
JieKou AI fournit des métriques de surveillance complètes pour l’utilisation des API de grands modèles de langage. Ces métriques vous permettent d’obtenir une compréhension approfondie de la disponibilité et des performances des requêtes d’API LLM. Vous pouvez consulter les métriques de surveillance sur la page de surveillance des grands modèles de langage (LLM).

Description des métriques

Toutes les métriques ci-dessous sont ventilées par modèle et échantillonnées à la minute, mais selon l’intervalle de temps que vous sélectionnez, les points d’échantillonnage peuvent ne pas être affichés pour chaque minute. Dans ce cas, les points d’échantillonnage de cet intervalle de temps seront moyennés puis affichés.
  • Requêtes par minute (RPM) Affiche le nombre de requêtes API émises chaque minute, afin de vous aider à comprendre les schémas d’utilisation et le niveau de concurrence de l’API.
  • Taux de réussite des requêtes Affiche le pourcentage de réponses API réussies par minute (codes d’état non 5xx), reflétant la disponibilité de l’API.
  • Nombre moyen de Tokens par requête Affiche le nombre moyen de Tokens d’entrée et de sortie par requête chaque minute, ce qui aide à comprendre les schémas de consommation de Tokens.
  • Latence de bout en bout (E2E) Affiche le temps total nécessaire au modèle pour générer une réponse complète dans les requêtes de chaque minute. Inclut les métriques de latence au 99e percentile, au 95e percentile et moyenne.
  • Temps de génération du premier Token (TTFT)
    Cette métrique n’est suivie que pour les requêtes en streaming avec le paramètre stream=true activé.
    Affiche le temps nécessaire pour traiter le Prompt et générer le premier Token de sortie dans les requêtes de chaque minute. Inclut les métriques de latence au 99e percentile, au 95e percentile et moyenne.
  • Temps par Token de sortie (TPOT)
    Cette métrique n’est suivie que pour les requêtes en streaming avec le paramètre stream=true activé.
    Affiche le temps moyen entre des tokens de sortie consécutifs dans les requêtes de chaque minute. Inclut les métriques de latence au 99e percentile, au 95e percentile et moyenne.