Monitoring großer Sprachmodelle

Beschreibung der Metriken

Alle folgenden Metriken sind nach Modell dimensioniert und werden auf Minutenebene erfasst. Je nach ausgewähltem Zeitintervall werden die Stichprobenpunkte jedoch möglicherweise nicht für jede Minute angezeigt. In diesem Fall werden die Stichprobenpunkte innerhalb dieses Zeitintervalls gemittelt und angezeigt.

Anfragen pro Minute (RPM) Zeigt die Anzahl der pro Minute gesendeten API-Anfragen an und hilft Ihnen, Nutzungsmuster und API-Parallelitätsniveaus zu verstehen.

Erfolgsrate der Anfragen Zeigt den Prozentsatz erfolgreicher API-Antworten (Nicht-5xx-Statuscodes) pro Minute an und spiegelt die Verfügbarkeit der API wider.

Durchschnittliche Anzahl von Token pro Anfrage Zeigt die durchschnittliche Anzahl von Eingabe- und Ausgabe-Token pro Anfrage und Minute an und hilft, Muster des Token-Verbrauchs zu verstehen.

End-to-End-(E2E)-Latenz Zeigt die Gesamtzeit an, die das Modell benötigt, um bei den Anfragen pro Minute eine vollständige Antwort zu erzeugen. Enthält Latenzmetriken für das 99. Perzentil, das 95. Perzentil und den Durchschnitt.

Zeit bis zur Generierung des ersten Tokens (TTFT)

Diese Metrik wird nur bei Streaming-Anfragen erfasst, bei denen der Parameter stream=true aktiviert ist.

Zeigt die Zeit an, die benötigt wird, um den Prompt zu verarbeiten und bei den Anfragen pro Minute das erste Ausgabe-Token zu erzeugen. Enthält Latenzmetriken für das 99. Perzentil, das 95. Perzentil und den Durchschnitt.

Zeit pro Ausgabe-Token (TPOT)

Diese Metrik wird nur bei Streaming-Anfragen erfasst, bei denen der Parameter stream=true aktiviert ist.

Zeigt die durchschnittliche Zeit zwischen aufeinanderfolgenden Ausgabe-Token bei den Anfragen pro Minute an. Enthält Latenzmetriken für das 99. Perzentil, das 95. Perzentil und den Durchschnitt.

Erste Schritte

LLM API

Modellanbieter

Modellfunktionen

Einrichtung von Drittanbieter-Tools

Beschreibung der Metriken

​Beschreibung der Metriken

Beschreibung der Metriken