LLM eval-as-code: a CI-kapu minden RAG-deployra

Egy manuálisan futtatott eval nem eval · ez a workflow kapja el a regressziót release elott.

Legutóbb ellenőrizve2026. április 22.

Meghallgatom

Szerző Mezo DezsoAlapito, DField Solutions

MegosztásX LinkedIn#

LLM eval-as-code: a CI-kapu minden RAG-deployra

Egy release elott manuálisan futtatott eval nem eval · remeny. A produkcióban megálló RAG-rendszereknek evals-as-code van: fix gold-set, metrikák CI-ben, regresszió-blokkolás, PR-enkénti diff-jelentés.

Ot metrika-osztály

Faithfulness · a válasz a retrieval kontextuson belül maradt-e
Context precision · a retrieval a jó chunkot hozta-e
Answer relevance · a válasz a kérdést célozza-e
Bias · semleges kontextusra semleges válasz
Injection resistance · 80+ ismert támadási mintára ellenáll-e

Gold-set fegyelem

A gold-set a repo-ban verziozva · nem táblázatban, nem megosztott Notion-oldalon. Változáshoz PR kell reviewerrel. Az eval harness konkrét gold-set-verzióra pinol · így az eval-futások összehasonlíthatók az időben.

Regresszió-blokkolás

A CI elbukik, ha bármelyik metrika 5 pontnál többet esik a baseline alól. A baseline-updatek csak explicit human approval-lal merge-ölnek · nem automatikusan minden javulásra. Megállítja azt a drift-et, ahol 'kis' regressziók halmozódnak.

if current_score < baseline_score - 0.05:
    raise AssertionError(
        f'Regressziu · {metric}: {current_score:.3f} < {baseline_score:.3f} - 0.05'
    )

Heti kanári az élő modell ellen

A PR-blokkoló evalokon túl hetente futtatjuk ugyanazt a suite-ot a produkciós forgalmon · elkapja a driftet a merge-időbeli CI és a vadonbeli valóság között (query-eloszlás-változás, prompt-drift, adat-avulás).

A leggyorsabb eval-as-code win: mutass a promptfoo-nak 20 valódi ügyfélkérdést + amit a jó válasznak fogadsz el. Ship CI-ba. Ez elott minden LLM-minoségi beszélgetés érzés.

MegosztásX LinkedIn#

Szerző

Mezo Dezso

Alapito, DField Solutions

Full-stack mérnök vagyok, és a teljes stacket magam építem - AI-ágensek, web- és mobilappok, blockchain, backendek, biztonság, egészen az operációs rendszerig. Ha szoftver, valószínűleg már építettem és szét is szedtem.

RÓLUNK Beszéljünk

Folytatás

2026. ápr. 26.·11 perc olvasás

AI chatbot szállítása 14 nap alatt · RAG, eval, deploy

Production AI chatbot 14 napban realista. A POC nem 14 nap, az 1 nap. A hátralévő 13 a 'nem hülyül el' és a 'működik élesben' munka.

Tovább

2026. ápr. 22.·8 perc olvasás

LLM prompt caching produkcióban · 60-80%-os költségvágás

A prompt caching a legnagyobb LLM-költségvágási lehetőség 2026-ban. 4 minta, valódi megtakarítás-számok, 2 gotcha.

Tovább

2026. ápr. 21.·10 perc olvasás

RAG adatszivárgás 2026: hogyan védd az ügyféladatot

A RAG nem csak válaszgenerálás · adatszivárogtató vektor, ha nem vigyázol. 7 minta + 4 réteg védelem.

Tovább

HASONLÓ TÉMÁJÚ PROJEKTEK

Weboldal · webshop · webapp · Egyedi szoftverfejlesztés · AI fejlesztés · 2026Vilya ProtectionVilya Protection · merénylet-megelőzési szoftver platform közéleti személyek és nagy események védelmére. A demo a teljes védelmi-irányító felületet mutatja.

Egyedi szoftverfejlesztés · Weboldal · webshop · webapp · AI fejlesztés · 2026AutoImportEU→HU autóimport-arbitrázs platform · „ezt megveheted külföldön és itthon eladhatod” élő, pontozott listán.

AI fejlesztés · Weboldal · webshop · webapp · Egyedi szoftverfejlesztés · 2026ClarixAITévhitminta-radar tanároknak · nyitott diákválaszok be, a kohorszt uraló gondolkodási hibák ki.

Beszéljünk

Inkább építenénk együtt?

Beszéljünk a projektedről. 30 perc, nincs kötelezettség.

Beszéljünk