DField SolutionsMérnöki stúdió · Budapest
Loading · Töltődik
Ugrás a tartalomhoz

Eval harness (kiértékelő keretrendszer)

Kapcsolódó szolgáltatás AI megoldások

MEGHATÁROZÁS

Az eval harness az a futtatható infrastruktúra, ami minden modellverzión, minden prompt-változtatáson és minden release előtt automatikusan lefuttat egy rögzített tesztkészletet, kiszámítja a metrikákat (pontosság, faktualitás, refusal arány, latency, költség), eltárolja az eredményeket idősorban, és blokkolja a release-t, ha valamelyik küszöb alá esik. A „mi teszteltük” tipikusan annyit jelent, hogy a fejlesztő néhány promptot manuálisan végigjátszott egyszer. Az eval harness ennek a CI-osított, regressziókat fogó, verziókat összehasonlító változata. Anélkül minden modellfrissítés vakrepülés. A komoly LLM-stack ma egy dataset, egy futtató (Promptfoo, Inspect, házi), egy scoring-réteg (LLM-as-judge plusz determinisztikus assert-ek) és egy dashboard ahol a tegnapi run mellett ott van az új.

KAPCSOLÓDÓ FOGALMAK06
  • RAG (Retrieval-Augmented Generation)

    Olyan AI-architektúra, ahol a modell minden válasz előtt lekér releváns dokumentumokat a saját adattáradból, és csak a kontextusra támaszkodva válaszol. 80%-ban kivédi a hallucinációt.

  • LLM (Nagy nyelvi modell)

    Milliárdos paraméterszámú neurális modell (GPT-4, Claude, Mistral), ami szöveget generál. Produkcióban ritkán használjuk csupaszon · mindig retrieval és guardrails rétegbe csomagolva.

  • Embedding

    Szöveg vektoros reprezentációja (pl. 1536 dimenziós float). Ha két szöveg embeddingje közel van, jelentésük is közel van. RAG-ben ez alapján választjuk ki a releváns chunkokat.

  • Vector adatbázis

    Adatbázis, ami embedding-vektorok gyors közelséges keresésére specializálódott (pgvector, Qdrant, Weaviate). A RAG retrieval-rétegének mérnöki alapja.

  • Eval (LLM-kiértékelés)

    Automatizált tesztkészlet, ami minden release előtt lefuttat ~50–200 arany (golden) kérdést a modellen, és megnézi hogy a válasz minőségmetrikái (pontosság, faktualitás, latency) átmentek-e a küszöbön.

  • Guardrail

    Input- vagy output-réteg, ami szűri a modell kérdést/válaszát (PII-scrubber, prompt-injection-detektor, JSON-schema validáció, tiltott témák). Nem kerül a modell-hívás elé/után, hanem azok körül.

EMLÍTÉSEK A BLOGON08