Кэширование промптов

Anthropic

Модели Anthropic поддерживают явное кэширование промптов. На этой платформе как в протоколе OpenAI chat/completions, так и в протоколе Anthropic v1/messages можно использовать "cache_control": {"type": "ephemeral"}, чтобы указать содержимое, которое нужно кэшировать.

{
  "model": "claude-sonnet-4-5-20250929",
  "max_tokens": 4096,
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "HUGE TEXT BODY",
          "cache_control": { "type": "ephemeral" }
        },
        {
          "type": "text",
          "text": "Name all the characters in the above book"
        }
      ]
    }
  ]
}

⚠️ cache_control — это расширенное нами поле. Оно не входит в официальный протокол OpenAI SDK, поэтому при вызове его необходимо добавлять явно. Создание/попадание в кэш можно проверить по ответу

{
  "prompt_tokens": 7039,
  "completion_tokens": 650,
  "total_tokens": 7689,
  "prompt_tokens_details": {
    "cached_tokens": 7019,
    "cache_creation_input_tokens": 7019,  # 👈 cache created
    "cache_read_input_tokens": 0
  }
}
---
{
  "prompt_tokens": 7042,
  "completion_tokens": 572,
  "total_tokens": 7614,
  "prompt_tokens_details": {
    "audio_tokens": 0,
    "cached_tokens": 7019,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 7019 # 👈 cache read
  }
}

⚠️⚠️⚠️ Для моделей Anthropic минимальные требования к Input Tokens при использовании Prompt caching следующие:

Claude Opus 4.1, Claude Opus 4, Claude Sonnet 4.5, Claude Sonnet 4, Claude Sonnet 3.7 — 1024 tokens
Claude Haiku 4.5, Claude Haiku 3.5 и Claude Haiku 3 — 2048 tokens

OpenAI и модели, совместимые с OpenAI

Как правило, эти модели могут поддерживать неявное кэширование. Когда пользователь многократно обращается к одной и той же модели с одинаковым префиксом Prompt, существует определённая вероятность попадания в кэш.

// Round 1
{
  "model": "gpt-4",
  "messages": [
    {
      "role": "system",
      "content": "HUGE TEXT BODY: Complete API documentation, code style guide, best practices (5000+ lines)"
    },
    {
      "role": "user",
      "content": "How do I authenticate API requests?"
    }
  ]
}

// Round 2 - Documentation cached
{
  "model": "gpt-4",
  "messages": [
    {
      "role": "system",
      "content": "HUGE TEXT BODY: Complete API documentation, code style guide, best practices (5000+ lines)"
    },
    {
      "role": "user",
      "content": "How do I authenticate API requests?"
    },
    {
      "role": "assistant",
      "content": "Use Bearer token in Authorization header..."
    },
    {
      "role": "user",
      "content": "What about rate limiting?"
    }
  ]
}

Ниже приведён пример использования при попадании в кэш

{
  "prompt_tokens": 3003,
  "completion_tokens": 1564,
  "total_tokens": 4567,
  "prompt_tokens_details": {
    "cached_tokens": 2025 # 👈 cache hitted
  }
}

Gemini

В настоящее время поддерживается только неявное кэширование. Неявное кэширование не требует ручной настройки или дополнительной конфигурации cache_control. Когда пользователь многократно обращается к одной и той же модели с одинаковым префиксом Prompt, существует определённая вероятность попадания в кэш. Обратите внимание:

Средний TTL (время жизни кэша) составляет 3–5 минут, но может меняться (например, может составлять всего несколько секунд)
Gemini 2.5 Flash требует минимальный ввод 1024 tokens, Gemini 2.5 Pro требует минимум 4096 tokens

Ниже приведён пример использования при попадании в кэш:

{
  "prompt_tokens": 2004,
  "completion_tokens": 1564,
  "total_tokens": 3568,
  "prompt_tokens_details": {
    "cached_tokens": 1994 # 👈 cache hitted
  }
}

В качестве примера ввода можно использовать раздел Модели OpenAI и модели, совместимые с OpenAI.

​Anthropic

​OpenAI и модели, совместимые с OpenAI

​Gemini

Anthropic

OpenAI и модели, совместимые с OpenAI

Gemini