DField SolutionsMérnöki stúdió · Budapest
Loading · Töltődik
Ugrás a tartalomhoz
Vissza a bloghoz
·9 perc olvasás
AI··9 perc olvasás

Miért szivárogtatja a pénzt az AI ügynököd · 6 prompt cache nyeremény erre a hétre

Az ügynököd havi LLM számlájának 60-80%-a elvész, ha nem cache-eled. 6 minta, valós előtte/utána számok, ezen a héten élesíthető.

Legutóbb ellenőrizve
Mező Dezső
Alapító, DField Solutions
MegosztásXLinkedIn#
Miért szivárogtatja a pénzt az AI ügynököd · 6 prompt cache nyeremény erre a hétre

Az utóbbi három hónapban hat különböző AI ügynök kódját nyitottuk meg azzal a kéréssel, hogy 'csökkentsük a havi LLM számlát'. Mind a hatban ugyanaz volt a baj: a system prompt és a tool definíciók minden hívásban újra elküldve, frissen számolva. A cache vagy egyáltalán nem volt bekapcsolva, vagy csak a system prompt egy részén futott.

Ez a hat pattern stackelhető. Külön külön mindegyik 10-30%, együtt 60-80% megtakarítás. Egy ügynöknél (kb. 18 ezer prompt token, napi 4000 hívás, Sonnet 4.5) a havi számla 980 EUR ról 240 EUR ra esett vissza, két nap fejlesztéssel.

1. System prompt cache breakpoint

A legolcsóbb nyeremény. Az Anthropic SDK ben a system prompt utolsó blokkját jelölöd cacheable nek (`cache_control: { type: 'ephemeral' }`), és kész. 5 perces TTL alatt minden további hívás a cache prefixet használja. Tipikus megtakarítás: 30-50% a teljes token költségen, ha a system prompt nagyobb, mint 2000 token.

2. Tool sémák cache-elése

Egy 12 toolos agentben a tool definíciók szépen 4-6 ezer tokent foglalnak. Statikusak, soha nem változnak hívásról hívásra. A tool blokk végére tett cache breakpoint 10-15%-ot levesz a számláról.

const response = await anthropic.messages.create({
  model: "claude-sonnet-4-5",
  max_tokens: 1024,
  tools: [
    ...toolDefinitions,
  ].map((t, i, arr) => i === arr.length - 1
    ? { ...t, cache_control: { type: "ephemeral" } }
    : t),
  system: [
    { type: "text", text: STATIC_INSTRUCTIONS },
    { type: "text", text: COMPANY_KNOWLEDGE, cache_control: { type: "ephemeral" } },
  ],
  messages,
});

3. Files API · a 2026 os új belépő

Az Anthropic Files API val nagy statikus dokumentumokat (cég wiki, termékkatalógus, PDF kézikönyv) feltöltesz egyszer, kapsz egy file_id t, és minden hívásban file referenciaként használod. A háttérben automatikusan cache elt prefixként kezelődik. Egy 60 oldalas PDF nél napi szinten 6-8 EUR ról 0.40 EUR ra estek a kontextus tokenek.

4. Conversation prefix cache long running agentnél

Egy hosszú beszélgetés (chatbot, párhuzamos fejlesztői ügynök) alatt minden új user üzenetnél az egész múlt visszaküldésre kerül. Ha a beszélgetés egy stabil prefixre épül (system + few shot + retrieved context), tedd a breakpointot a stabil rész végére, ne mindig a legutolsó turn re. Tipikus megtakarítás: 20-40% chat ügynököknél.

5. Few shot példák külön cache rétegben

Klasszifikáló vagy extractor ügynöknél a few shot példák 3-5 ezer token, soha nem változnak. Tedd külön blokkba, jelöld cacheable nek. A példákon plusz 10-20% jön le, fontos hogy stabil hash el legyenek (rendezés, whitespace számít).

6. Pre warm cron alacsony forgalmú ügynöknél

A cache TTL Anthropic nál ~5 perc, OpenAI nál ~10 perc. Ha napi 200 hívásod van, szétszórva, a cache hit ratio nyomorult lesz. Egy 1 perces cron, ami egy üres user üzenetet küld a stabil prefixre, a cache et folyamatosan melegen tartja. Költség: napi 0.10 EUR alatt; megtakarítás: 30-50% a normál hívások token áraiban.

Valós előtte/utána számla · 1 hónap

Egy magyar ügyfélnek épített support ügynök. 3800 napi hívás, 14 ezer token átlagos prompt méret, Sonnet 4.5.

  • Előtte (cache nincs): havi token költség 1 120 EUR, válaszidő p95 4.8s.
  • 1 pattern (system cache): havi 720 EUR, p95 3.9s.
  • 1+2 pattern (system + tools): havi 540 EUR, p95 3.2s.
  • 1+2+5 pattern (+ few shot): havi 380 EUR, p95 2.7s.
  • Mind a 6 pattern: havi 220 EUR, p95 2.1s. Megtakarítás: 80%.

Két csapdát érdemes ismerni

  • Az első cache write Anthropic nál +25% extra (a tárolás díja). Alacsony forgalomnál ez fájhat. 50 hívás/óra felett mindig megéri.
  • A cache breakpoint sorrendje számít. Ha bárhol a prefixben változik egy karakter, az összes utána lévő blokk újraszámolódik. A stabil tartalmat tedd a legelejére, az instabilt a végére.

Mérd 1000 produkciós hívás előtte/utána. Ha a számlád nem 50% alá ment, kihagytál egy patternt. A 60-80% reális, nem marketing.

MegosztásXLinkedIn#
Mező Dezső
Szerző

Mező Dezső

Alapító, DField Solutions

Pénzügyi cégeknél és kreátor-eszközöknél is építettem már olyan rendszereket, amik nap mint nap élesben futnak. Budapesttől San Franciscóig · startupoknak és nagyobb vállalatoknak egyaránt.

Folytatás
HASONLÓ TÉMÁJÚ PROJEKTEK
Beszéljünk

Inkább építenénk együtt?

Beszéljünk a projektedről. 30 perc, nincs kötelezettség.