大規模言語モデルのモニタリング

指標の説明

以下のすべての指標はモデル別のディメンションで集計され、分単位でサンプリングされます。ただし、選択した時間間隔によっては、サンプリングポイントが毎分表示されない場合があります。その場合、その時間間隔内のサンプリングポイントは平均化されて表示されます。

1 分あたりのリクエスト数 (RPM) 1 分あたりに送信された API リクエスト数を表示し、利用パターンと API の同時実行レベルを把握するのに役立ちます。

リクエスト成功率 1 分あたりの成功した API レスポンス（非 5xx ステータスコード）の割合を表示し、API の可用性を示します。

リクエストあたりの平均トークン数 1 分あたりの各リクエストにおける平均入力トークン数と出力トークン数を表示し、トークン消費パターンの把握に役立ちます。

エンドツーエンド（E2E）レイテンシ 1 分あたりのリクエストにおいて、モデルが完全なレスポンスを生成するために必要な合計時間を表示します。99 パーセンタイル、95 パーセンタイル、平均のレイテンシ指標が含まれます。

最初のトークン生成までの時間 (TTFT)

この指標は、stream=true パラメータを有効にしたストリーミングリクエストでのみ追跡されます。

1 分あたりのリクエストにおいて、Prompt を処理して最初の出力トークンを生成するまでに必要な時間を表示します。99 パーセンタイル、95 パーセンタイル、平均のレイテンシ指標が含まれます。

出力トークンあたりの時間 (TPOT)

この指標は、stream=true パラメータを有効にしたストリーミングリクエストでのみ追跡されます。

1 分あたりのリクエストにおける連続する出力 token 間の平均時間を表示します。99 パーセンタイル、95 パーセンタイル、平均のレイテンシ指標が含まれます。

指標の説明