Anthropic
Os modelos Anthropic oferecem suporte a cache de prompt explícito. Nesta plataforma, tanto o protocolo OpenAI chat/completions quanto o protocolo Anthropic v1/messages podem usar"cache_control": {"type": "ephemeral"} para especificar o conteúdo que deve ser armazenado em cache.
- Claude Opus 4.1, Claude Opus 4, Claude Sonnet 4.5, Claude Sonnet 4 e Claude Sonnet 3.7: 1024 tokens
- Claude Haiku 4.5, Claude Haiku 3.5 e Claude Haiku 3: 2048 tokens
OpenAI e modelos compatíveis com OpenAI
Normalmente, esses modelos podem oferecer suporte a cache implícito. Quando o usuário acessa repetidamente o mesmo modelo usando o mesmo prefixo de prompt, há uma certa probabilidade de acerto de cache.Gemini
Atualmente, há suporte apenas a cache implícito. O cache implícito não exige configuração manual nem configuração adicional de cache_control. Quando o usuário acessa repetidamente o mesmo modelo usando o mesmo prefixo de prompt, há uma certa probabilidade de acerto de cache. Pontos de atenção- O TTL médio (tempo de vida do cache) é de 3 a 5 minutos, mas pode variar (por exemplo, pode ser de apenas alguns segundos)
- Gemini 2.5 Flash exige uma entrada mínima de 1024 tokens, e Gemini 2.5 Pro exige um mínimo de 4096 tokens