Anthropic
Les modèles Anthropic prennent en charge le Prompt caching explicite. Sur cette plateforme, que vous utilisiez le protocole OpenAI chat/completions ou le protocole Anthropic v1/messages, vous pouvez utiliser"cache_control": {"type": "ephemeral"} pour spécifier le contenu à mettre en cache.
- Claude Opus 4.1, Claude Opus 4, Claude Sonnet 4.5, Claude Sonnet 4 et Claude Sonnet 3.7 : 1024 tokens
- Claude Haiku 4.5, Claude Haiku 3.5 et Claude Haiku 3 : 2048 tokens
OpenAI et modèles compatibles OpenAI
En général, ces modèles peuvent prendre en charge la mise en cache implicite. Lorsqu’un utilisateur accède à plusieurs reprises au même modèle avec le même préfixe de Prompt, il existe une certaine probabilité que le cache soit atteint.Gemini
Actuellement, seule la mise en cache implicite est prise en charge. La mise en cache implicite ne nécessite aucun paramétrage manuel ni configuration cache_control supplémentaire. Lorsqu’un utilisateur accède à plusieurs reprises au même modèle avec le même préfixe de Prompt, il existe une certaine probabilité que le cache soit atteint. Points à noter :- Le TTL moyen (durée de vie du cache) est de 3 à 5 minutes, mais il peut varier (par exemple, il peut n’être que de quelques secondes)
- Gemini 2.5 Flash exige une entrée minimale de 1024 tokens, tandis que Gemini 2.5 Pro exige un minimum de 4096 tokens