Ugrás a tartalomhoz

Egy release elott manuálisan futtatott eval nem eval · remeny. A produkcióban megálló RAG-rendszereknek evals-as-code van: fix gold-set, metrikák CI-ben, regresszió-blokkolás, PR-enkénti diff-jelentés.

Ot metrika-osztály

  • Faithfulness · a válasz a retrieval kontextuson belül maradt-e
  • Context precision · a retrieval a jó chunkot hozta-e
  • Answer relevance · a válasz a kérdést célozza-e
  • Bias · semleges kontextusra semleges válasz
  • Injection resistance · 80+ ismert támadási mintára ellenáll-e

Gold-set fegyelem

A gold-set a repo-ban verziozva · nem táblázatban, nem megosztott Notion-oldalon. Változáshoz PR kell reviewerrel. Az eval harness konkrét gold-set-verzióra pinol · így az eval-futások összehasonlíthatók az időben.

Regresszió-blokkolás

A CI elbukik, ha bármelyik metrika 5 pontnál többet esik a baseline alól. A baseline-updatek csak explicit human approval-lal merge-ölnek · nem automatikusan minden javulásra. Megállítja azt a drift-et, ahol 'kis' regressziók halmozódnak.

if current_score < baseline_score - 0.05:
    raise AssertionError(
        f'Regressziu · {metric}: {current_score:.3f} < {baseline_score:.3f} - 0.05'
    )

Heti kanári az élő modell ellen

A PR-blokkoló evalokon túl hetente futtatjuk ugyanazt a suite-ot a produkciós forgalmon · elkapja a driftet a merge-időbeli CI és a vadonbeli valóság között (query-eloszlás-változás, prompt-drift, adat-avulás).

A leggyorsabb eval-as-code win: mutass a promptfoo-nak 20 valódi ügyfélkérdést + amit a jó válasznak fogadsz el. Ship CI-ba. Ez elott minden LLM-minoségi beszélgetés érzés.

MegosztásXLinkedIn#
Mezo Dezso

Szerző

Mezo Dezso

Alapito, DField Solutions

Pénzügyi cégeknél és kreátor-eszközöknél is építettem már olyan rendszereket, amik nap mint nap élesben futnak. Budapesttől San Franciscóig · startupoknak és nagyobb vállalatoknak egyaránt.

Folytatás

HASONLÓ TÉMÁJÚ PROJEKTEK

Inkább építenénk együtt?

Beszéljünk a projektedről. 30 perc, nincs kötelezettség.

Beszéljünk