レート制限（Rate Limits） - 接口AI 文档中心

レート制限について

レート制限は、特定の時間内に実行できる API リクエスト数を定めるもので、API 利用の最適化に役立ちます。

API の乱用や誤用を防止
公平なリソース配分を確保
API のパフォーマンスと信頼性を維持
サービスの安定性を保護

デフォルトのレート制限

各アカウントには、モデル呼び出し時にデフォルトのレート制限が設定されており、RPM（モデルごとの 1 分あたりのリクエスト数）と TPM（モデルごとの 1 分あたりの token 数）を単位として測定されます。レート制限はアカウントの等級によって異なります。具体的な基準は以下の表をご覧ください。

Quota 等級	条件（単位：米ドル）
T1	直近 3 暦月における、単月の最高チャージ総額< $50
T2	$50 ≤ 直近 3 暦月における、単月の最高チャージ総額< $500
T3	$500 ≤ 直近 3 暦月における、単月の最高チャージ総額< $3000
T4	$3000 ≤ 直近 3 暦月における、単月の最高チャージ総額< $10000
T5	$10000 ≤ 直近 3 暦月における、単月の最高チャージ総額

各等級のデフォルトのレート制限（RPM / TPM）：

レート制限の発生を避ける

API リクエスト数がレート制限を超えた場合、API は以下を返します。

HTTP ステータスコード：429（リクエストが多すぎます）。
レスポンス本文にレート制限超過の情報が返されます。

レート制限の発生を避けるために、以下の対策を取ることができます。

アプリケーション内でリクエスト制限を実装する。
リトライ時に指数バックオフを使用する。
API の利用状況を監視する。

429 エラーの処理

429 エラーを受け取った場合は、以下の操作を試すことができます。

後でもう一度試す：一定時間待ってからリクエストを再試行してください。
リクエストを最適化する：リクエスト頻度を減らします。
レート制限を引き上げる：より高いレート制限が必要な場合は、お問い合わせください。

構造化出力（Structured Outputs）

大規模言語モデルのモニタリング