Evaluations

Per-agent scoring against golden outputs — schema compliance, row recall/precision, per-column hit rates, hallucination detection, confidence calibration.

No eval reports yet

Run python -m app.eval run --agent <key> --input ... --golden ... --provider openai --model gpt-4o or POST /api/eval/run to produce reports.