Model Speed/Quality Methodology

Goal

Find a local model + generation parameter set that significantly reduces latency while preserving output quality for Aman cleanup.

All model candidates must run with the same prompt framing:

XML-tagged system contract for pass 1 (draft) and pass 2 (audit)
XML-tagged user messages (<request>, <language>, <transcript>, <dictionary>, output contract tags)
Strict JSON output contracts:
- pass 1: {"candidate_text":"...","decision_spans":[...]}
- pass 2: {"cleaned_text":"..."}

Pipeline:

Draft pass: produce candidate cleaned text + ambiguity decisions
Audit pass: validate ambiguous corrections conservatively and emit final text
Optional heuristic alignment eval: run deterministic alignment against timed-word fixtures (heuristics_dataset.jsonl)

Per-run quality metrics:

parse_valid: output parsed and contains cleaned_text
exact_match: normalized exact match against expected output
similarity: normalized text similarity
contract_compliance: non-empty contract-compliant output
i_mean_literal_false_positive_rate: literal I mean cases wrongly converted to correction
i_mean_correction_false_negative_rate: correction I mean cases wrongly preserved literally
spelling_disambiguation_accuracy: spelling hints resolved to expected final token

Per-run latency metrics:

Hybrid score:

0.40*parse_valid + 0.20*exact_match + 0.30*similarity + 0.10*contract_compliance

Heuristic score (when --heuristic-dataset is provided):

Combined ranking score:

combined_score = (1 - heuristic_weight) * hybrid_score_avg + heuristic_weight * heuristic_combined_score_avg

Candidate can be promoted if: