Eval harness (kiértékelő keretrendszer)

Kapcsolódó szolgáltatás AI fejlesztés

MEGHATÁROZÁS

Az eval harness az a futtatható infrastruktúra, ami minden modellverzión, minden prompt-változtatáson és minden release előtt automatikusan lefuttat egy rögzített tesztkészletet, kiszámítja a metrikákat (pontosság, faktualitás, refusal arány, latency, költség), eltárolja az eredményeket idősorban, és blokkolja a release-t, ha valamelyik küszöb alá esik. A „mi teszteltük” tipikusan annyit jelent, hogy a fejlesztő néhány promptot manuálisan végigjátszott egyszer. Az eval harness ennek a CI-osított, regressziókat fogó, verziókat összehasonlító változata. Anélkül minden modellfrissítés vakrepülés. A komoly LLM-stack ma egy dataset, egy futtató (Promptfoo, Inspect, házi), egy scoring-réteg (LLM-as-judge plusz determinisztikus assert-ek) és egy dashboard ahol a tegnapi run mellett ott van az új.

KAPCSOLÓDÓ FOGALMAK06

Kontextus-tervezés (Context Engineering)→
A prompt engineering utódja: tudatosan állítjuk össze, mi kerül a modell kontextusába - rendszerprompt, lekért dokumentumok, eszközök, memória. A cél a maximális pontosság a lehető legkevesebb tokenből. A modell csak annyit tud, amennyit beletettünk.
AI Gateway→
Proxy-réteg az app és az LLM-szolgáltatók (OpenAI, Anthropic) között: routing, újrapróbálás, cache, rate-limit, kulcskezelés, költségkövetés és átkapcsolás kiesés esetén. Egy helyen látod a teljes AI-számládat, és nem ragadsz be egy szállítóhoz.
Modell-routing (Model Routing)→
Minden kérést a legolcsóbb modellhez küldünk, ami még megbirkózik vele: kis modell az egyszerű kérdéseknek, frontier modell a nehezeknek - gyakran egy osztályozó dönt. A drága hívásokat 5-10×-esére csökkenti az inference-költséget.
Graph RAG→
RAG-változat, amely tudásgráfon (entitások + kapcsolatok) keres, nem lapos szövegdarabokon. Így megválaszolja a több lépéses kérdéseket („hogyan kapcsolódik X-hez Y?”), amiket a tisztán vektoros keresés elszalaszt.
Ágens-memória (Agent Memory)→
Ahogy egy AI-ágens megőrzi az állapotát a fordulók és munkamenetek között: rövid távú (kontextusablak), hosszú távú (vektortár/DB tényekkel) és epizodikus. Ez a különbség egy felejtő ágens és egy olyan közt, amely tanulja a cégedet.
Szintetikus adat (Synthetic Data)→
Modell által generált tanító- és teszt-adat, ha a valódi szűkös, érzékeny (GDPR) vagy kiegyensúlyozatlan. Hasznos, de a minőséget és diverzitást ellenőrizni kell - különben a modell saját vakfoltjait sütöd bele a rendszerbe.

EMLÍTÉSEK A BLOGON08