{
  "benchmark_key": "benchmark-02",
  "dimension_keys": [
    "effort",
    "model"
  ],
  "family_key": "cost-curves-effort",
  "metric_key": "quality",
  "rows": [
    {
      "effort": "na",
      "judge_n": 60,
      "mean_judge_score": 1.5,
      "model": "gpt-4o",
      "std_judge_score": 0.873334
    },
    {
      "effort": "none",
      "judge_n": 60,
      "mean_judge_score": 2.0,
      "model": "gpt-5.2",
      "std_judge_score": 0.0
    },
    {
      "effort": "low",
      "judge_n": 60,
      "mean_judge_score": 1.933333,
      "model": "gpt-5.2",
      "std_judge_score": 0.362041
    },
    {
      "effort": "medium",
      "judge_n": 60,
      "mean_judge_score": 2.0,
      "model": "gpt-5.2",
      "std_judge_score": 0.0
    },
    {
      "effort": "high",
      "judge_n": 60,
      "mean_judge_score": 2.0,
      "model": "gpt-5.2",
      "std_judge_score": 0.0
    },
    {
      "effort": "xhigh",
      "judge_n": 60,
      "mean_judge_score": 2.0,
      "model": "gpt-5.2",
      "std_judge_score": 0.0
    }
  ],
  "schema": "wrpo.chart_data",
  "schema_semver": "0.1.0",
  "series_keys": [
    "mean_judge_score",
    "std_judge_score",
    "judge_n"
  ],
  "source_sanitized_sha256": [
    "8e988fb65e0bf54b2ad2f5308fdf1e24594bb63866d2248fa069304fdc12110b"
  ],
  "tier": "SANITIZED_PUBLIC",
  "units_key": "judge_score"
}