awoooi/scripts/agents/validate-agent-replay-contract.py

#!/usr/bin/env python3
"""
Validate candidate Agent replay outputs before normalization/scoring.
"""

from __future__ import annotations

import argparse
import json
import sys
from pathlib import Path
from typing import Any


ROOT = Path(__file__).resolve().parents[2]
API_SRC = ROOT / "apps" / "api"
sys.path.insert(0, str(API_SRC))

from src.services.agent_replay_contract import (  # noqa: E402
    validate_candidate_replay_contract,
)


def main() -> int:
    parser = argparse.ArgumentParser(
        description="Validate candidate replay result alignment against inputs."
    )
    parser.add_argument("--inputs", required=True, help="candidate input JSONL")
    parser.add_argument("--results", required=True, help="candidate raw result JSONL")
    parser.add_argument("--candidate-id", help="Expected candidate_id")
    parser.add_argument("--output", help="Contract report JSON path")
    args = parser.parse_args()

    report = validate_candidate_replay_contract(
        candidate_inputs=_read_jsonl(Path(args.inputs)),
        candidate_results=_read_jsonl(Path(args.results)),
        expected_candidate_id=args.candidate_id,
    ).to_dict()
    rendered = json.dumps(report, ensure_ascii=False, indent=2, sort_keys=True)

    if args.output:
        Path(args.output).write_text(rendered + "\n", encoding="utf-8")
    else:
        print(rendered)

    return 0 if report["valid"] else 2


def _read_jsonl(path: Path) -> list[dict[str, Any]]:
    records: list[dict[str, Any]] = []
    with path.open(encoding="utf-8") as handle:
        for line_number, line in enumerate(handle, start=1):
            line = line.strip()
            if not line or line.startswith("#"):
                continue
            try:
                records.append(json.loads(line))
            except Exception as exc:
                raise SystemExit(f"{path}:{line_number}: invalid JSONL: {exc}") from exc
    return records


if __name__ == "__main__":
    raise SystemExit(main())