Anthropic
Anthropic-Modelle unterstützen explizites Prompt-Caching. Auf dieser Plattform kann unabhängig davon, ob das OpenAI-chat/completions-Protokoll oder das Anthropic-v1/messages-Protokoll verwendet wird, mit "cache_control": {"type": "ephemeral"} angegeben werden, welche Inhalte gecacht werden sollen.
cache_control ist ein von uns erweitertes Feld. Im offiziellen OpenAI-SDK-Protokoll ist diese Eigenschaft nicht enthalten und muss daher beim Aufruf explizit hinzugefügt werden.
Über die Antwort lässt sich prüfen, ob der Cache erstellt bzw. getroffen wurde.
- Claude Opus 4.1, Claude Opus 4, Claude Sonnet 4.5, Claude Sonnet 4 und Claude Sonnet 3.7: 1024 tokens
- Claude Haiku 4.5, Claude Haiku 3.5 und Claude Haiku 3: 2048 tokens
OpenAI und OpenAI-kompatible Modelle
In der Regel unterstützen diese Modelle möglicherweise implizites Caching. Wenn Benutzer wiederholt mit demselben Prompt-Präfix auf dasselbe Modell zugreifen, besteht eine gewisse Wahrscheinlichkeit, dass der Cache getroffen wird.Gemini
Derzeit wird nur implizites Caching unterstützt. Implizites Caching erfordert keine manuelle Einrichtung oder zusätzlichecache_control-Konfiguration. Wenn Benutzer wiederholt mit demselben Prompt-Präfix auf dasselbe Modell zugreifen, besteht eine gewisse Wahrscheinlichkeit, dass der Cache getroffen wird.
Zu beachten:
- Die durchschnittliche TTL (Cache-Lebensdauer) beträgt 3–5 Minuten, kann jedoch variieren (z. B. möglicherweise nur wenige Sekunden).
- Gemini 2.5 Flash erfordert eine Mindesteingabe von 1024 tokens, Gemini 2.5 Pro eine Mindesteingabe von 4096 tokens.