LLM eval-as-code: a CI-kapu minden RAG-deployra
Egy manuálisan futtatott eval nem eval · ez a workflow kapja el a regressziót release elott.
Egy manuálisan futtatott eval nem eval · ez a workflow kapja el a regressziót release elott.
Egy release elott manuálisan futtatott eval nem eval · remeny. A produkcióban megálló RAG-rendszereknek evals-as-code van: fix gold-set, metrikák CI-ben, regresszió-blokkolás, PR-enkénti diff-jelentés.
A gold-set a repo-ban verziozva · nem táblázatban, nem megosztott Notion-oldalon. Változáshoz PR kell reviewerrel. Az eval harness konkrét gold-set-verzióra pinol · így az eval-futások összehasonlíthatók az időben.
A CI elbukik, ha bármelyik metrika 5 pontnál többet esik a baseline alól. A baseline-updatek csak explicit human approval-lal merge-ölnek · nem automatikusan minden javulásra. Megállítja azt a drift-et, ahol 'kis' regressziók halmozódnak.
if current_score < baseline_score - 0.05:
raise AssertionError(
f'Regressziu · {metric}: {current_score:.3f} < {baseline_score:.3f} - 0.05'
)A PR-blokkoló evalokon túl hetente futtatjuk ugyanazt a suite-ot a produkciós forgalmon · elkapja a driftet a merge-időbeli CI és a vadonbeli valóság között (query-eloszlás-változás, prompt-drift, adat-avulás).

Alapito, DField Solutions
Olyan rendszereket építettem és üzemeltettem, amiket nap mint nap valódi cégek használnak - pénzügytől a blockchain-ig, kezdő startuptól nagyobb cégig.
Beszéljünk a projektedről. 30 perc, nincs kötelezettség.