Egy release elott manuálisan futtatott eval nem eval · remeny. A produkcióban megálló RAG-rendszereknek evals-as-code van: fix gold-set, metrikák CI-ben, regresszió-blokkolás, PR-enkénti diff-jelentés.
Ot metrika-osztály
- Faithfulness · a válasz a retrieval kontextuson belül maradt-e
- Context precision · a retrieval a jó chunkot hozta-e
- Answer relevance · a válasz a kérdést célozza-e
- Bias · semleges kontextusra semleges válasz
- Injection resistance · 80+ ismert támadási mintára ellenáll-e
Gold-set fegyelem
A gold-set a repo-ban verziozva · nem táblázatban, nem megosztott Notion-oldalon. Változáshoz PR kell reviewerrel. Az eval harness konkrét gold-set-verzióra pinol · így az eval-futások összehasonlíthatók az időben.
Regresszió-blokkolás
A CI elbukik, ha bármelyik metrika 5 pontnál többet esik a baseline alól. A baseline-updatek csak explicit human approval-lal merge-ölnek · nem automatikusan minden javulásra. Megállítja azt a drift-et, ahol 'kis' regressziók halmozódnak.
if current_score < baseline_score - 0.05:
raise AssertionError(
f'Regressziu · {metric}: {current_score:.3f} < {baseline_score:.3f} - 0.05'
)Heti kanári az élő modell ellen
A PR-blokkoló evalokon túl hetente futtatjuk ugyanazt a suite-ot a produkciós forgalmon · elkapja a driftet a merge-időbeli CI és a vadonbeli valóság között (query-eloszlás-változás, prompt-drift, adat-avulás).
A leggyorsabb eval-as-code win: mutass a promptfoo-nak 20 valódi ügyfélkérdést + amit a jó válasznak fogadsz el. Ship CI-ba. Ez elott minden LLM-minoségi beszélgetés érzés.

Szerző
Mezo Dezso
Alapito, DField Solutions
Pénzügyi cégeknél és kreátor-eszközöknél is építettem már olyan rendszereket, amik nap mint nap élesben futnak. Budapesttől San Franciscóig · startupoknak és nagyobb vállalatoknak egyaránt.
Folytatás
HASONLÓ TÉMÁJÚ PROJEKTEK