Anthropic
Anthropic モデルは 明示的なプロンプトキャッシュ に対応しています。 本プラットフォームでは、OpenAI chat/completions プロトコル、Anthropic v1/messages プロトコルのいずれでも、"cache_control": {"type": "ephemeral"} を使用してキャッシュする内容を指定できます。
- Claude Opus 4.1、Claude Opus 4、Claude Sonnet 4.5、Claude Sonnet 4、Claude Sonnet 3.7 は 1024 tokens
- Claude Haiku 4.5、Claude Haiku 3.5、Claude Haiku 3 は 2048 tokens
OpenAI および OpenAI 互換モデル
通常、これらのモデルは暗黙的キャッシュに対応している可能性があります。 ユーザーが同じ Prompt プレフィックスを使用して同じモデルに繰り返しアクセスすると、一定の確率でキャッシュにヒットします。Gemini
現在は暗黙的キャッシュのみ対応しています。暗黙的キャッシュでは、手動設定や追加の cache_control 設定は不要です。ユーザーが同じ Prompt プレフィックスを使用して同じモデルに繰り返しアクセスすると、一定の確率でキャッシュにヒットします。 注意点は以下のとおりです。- 平均 TTL(キャッシュ存続時間)は 3~5 分ですが、変動する場合があります(たとえば数秒のみの場合もあります)
- Gemini 2.5 Flash は最小入力 1024 tokens、Gemini 2.5 Pro は最小入力 4096 tokens が必要です