when reasoning pays off

专题文章 · benchmark-02 多步任务

多步任务:当推理终于值得一试

读完短事实回答那组测量后,你大概会忍不住把推理强度归到"隐藏支出"那一类——不改变答案、只让账单变大的设置项。但团队也会跑那种"答案取决于能不能把一串约束同时记在脑子里"的任务。在这里,问题又重新打开了:更强的模型、更高的推理强度,改变的只是成本,还是连答案也一起改变?这个基准就把这种直觉拿去检验。

我们为什么要检验这个

短事实回答那组测量给了一个教训:当任务只要求回忆时,再调高强度多半只会增加 成本。可不是所有任务都只是回忆。现实里很多工作要求模型把一串小约束一直 "记在心里"——把几个条件组合起来,带着中途结果,然后才作答。在这种形态下, "让它多想一点"就不再像明摆着的浪费,反而开始像能回本的事。

由此就有了一个干净、值得验证的假设:如果任务真的需要把多个约束一起保持住, 那么更强的模型、更高的推理强度,也许带来的就不只是更大的账单,而是实打实的 质量。这个直觉是讲得通的——实验要检验的,是它能不能在一组测得的多步任务上、 而不是在抽象层面成立。

于是我们做了检验。benchmark-02 固定住这组多步任务,测试同一套模型与各档推理强度—— GPT-4o 基线,随后是 GPT-5.2 的 none、low、medium、high、extra-high——并在每个 配置上把平均评审分挨着成本和延迟一起读。结果是混合的,值得如实说出来: GPT-5.2 把质量推到了 GPT-4o 基线之上,但在 GPT-5.2 内部,最高的 effort 设置 并不自动是赢家,而最便宜的最高分配置根本没有用任何推理 token。下面的单页 概览把这条信息一锤定音,随后各节再补上测得的细节。

一眼看懂这个专题。在这组多步任务里,质量的上行是沿着模型升级 (gpt-4o → gpt-5.2)发生的,而不是沿着各档推理强度。这张单页概览把同一条 信息一锤定音,并标明证据边界;随后各节再补上测得的细节。 打开多步任务的单页概览 SVG
多步任务的单页概览。对比模型内部几乎持平的 effort 阶梯,与从 gpt-4o 到 gpt-5.2 的模型升级所带来的明显质量上行。核心信息:在多步任务里,质量的上行来自模型升级,而不是沿 effort 阶梯往上爬。基于测量聚合,在模型内部与模型之间比较了按 effort 划分的质量单元格。

问题

什么时候多花的推理带来的是质量提升,而不只是换来一张更大的账单?

证据

benchmark-02 的质量、成本、延迟与 token 形态四张图。

发现

GPT-5.2 的 low/none 区间相对 GPT-4o 基线带来了可见的质量提升,而且并不需要用上最高的 effort 设置。

结论

把多步任务路由到能跨过质量门槛的最低推理强度档;只有当配对的质量图真的动了,才往上调。

专题导读图(由公开聚合手工组装):本专题从仪表盘里抽出一个"一张图能回答"的问题——按模型与推理强度划分的平均评审分,每根柱子下方标注每个请求的平均成本——并配上下方的源数据表。由公开图表数据管线渲染出来的源图,还在更下方。
柱状图:benchmark-02 按模型与 effort 划分的平均评审分,带成本标签。

质量动了,解读也就变了

在 benchmark-02 里,基线 GPT-4o 配置的平均评审分是 1.5。GPT-5.2 在 none、medium、high、extra-high 各档都达到了 2.0,low 档达到 1.93。这张图并没有说"总是该加大推理强度",它说的是:这个工作负载具备足够的结构,让模型与推理强度的选择值得一试。

更要紧的,是去看最早"达标"的那几个配置的形态。GPT-5.2 none 平均每个请求 $0.000618,就已经摸到了 2.0。这让"试一试"本身变得有用,而不必把最高推理强度档默认当成起点。

这张图该怎么读

横轴是"模型/推理强度"这个配置,纵轴是平均评审分,每根柱子下方的标签是同一配置每个请求的平均成本。这种成对视图之所以重要,是因为只看质量柱容易诱使人过度选择:如果好几个配置都摸到了评分上限,那么更便宜、更快的那个反而更值得关注。

这不是频次直方图。每根柱子都是一个被汇总过的实验配置,在源表里有各自的样本数和标准差。

这个基准为什么不一样

短事实任务大多只要简短回答;多步任务则要求模型维持住一小条推理链。这就改变了"多想一会儿"能带来什么——推理预算不再只是隐藏的花销,而成了通往"少答错"的一条路径。

不过证据并不奖励"越多越好"。延迟随推理强度上升,extra-high effort 平均要 3.3s。一旦质量已经触顶,下一个问题就变成:更慢的那个配置,是不是还在告诉我们什么新东西。

这意味着什么

推理之所以值回票价,是因为它改变了答案本身,而不是改变了答案的"气场"。多步任务正是"试一试"最该先落地的地方:任务有足够的内部结构让模型获益,评审者也能看出区别。

所以结论不是"到处都用更多推理",而是"把多步任务路由到能跨过质量门槛的最低推理强度档"。

证据表

源图——benchmark-02 的评审质量。 X 轴:模型与各档推理强度——gpt-4o 基线,随后是 gpt-5.2 的 none、low、medium、high、extra-high。 Y 轴:0–2 评分标准下的平均评审分。 柱子:每根柱子是一个配置的平均分——这是聚合比较,不是频次 直方图——须线表示 ±1 标准差。 读法:台阶落在模型之间,而不在 effort 阶梯上——gpt-4o 基线在 1.5,而 gpt-5.2 的各配置全都落在 2.0 或其附近(none、medium、high、extra-high 为 2.0,low 为 1.93)。所以在这组任务里,上行是沿着模型升级、而不是沿着更高的 推理强度发生的。 证据边界:每个组合 N = 20、R = 3 次重复,取一个 Azure OpenAI 租户与区域下这组多步任务。误差棒是标准差,不是置信区间;在 N = 20 下不主张 p 值。 来源与仪表盘:柱值来自 docs/blog/data/chart-data/cost-curves-effort/benchmark-02/quality.json, 请在证据仪表盘分发的图表数据)里 与成本图配对阅读。
柱状图:benchmark-02 按模型与 effort 划分的平均评审分。gpt-4o 基线约 1.5,gpt-5.2 的各 effort 单元格全都在 2.0 或其附近,带标准差须线。
benchmark-02 的成本与质量证据
证据行指标 A指标 B它补充了什么
GPT-4o baseline评审分 1.50$0.000798/request一个清晰的、要去超越的基线。
GPT-5.2 none评审分 2.00$0.000618/request这一公开测量里最便宜的满分配置。
GPT-5.2 low评审分 1.93$0.000859/request仍高于基线,但在这里并非干净利落的赢家。
GPT-5.2 extra-high评审分 2.00$0.002179/request同样满分,却伴随更大的账单和更长的延迟。

来源与证据边界

上面所有数字都能追溯到本仓库的公开产物,所有成本主张都按带日期的定价快照 算出。"停在能跨过质量门槛的最低推理强度"这一路由习惯,是本文自己的运维推断。 下面两个 Tier 标明了:有文档记载的输入到哪里为止,推断又从哪里开始。

这组测量证明了什么、又没证明什么:它表明,在这组多步任务里,GPT-5.2 相对 GPT-4o 基线带来了可测量的质量上行。它并不证明更高的推理强度总能提高质量、或总能 正当化额外的账单——在这里,最便宜的满分配置根本没用推理 token——也不证明 同样的上行会出现在短事实回答、工具代理或综合类工作里。每个专题各有自己的测量。

这些证据允许我们说什么

在这组任务里,多步任务从 GPT-4o 基线的 1.5 升到了 GPT-5.2 的 2.0,展示出可测量的质量上行,而这个上行来自模型升级,而不是各档推理强度。它为本系列加上一个基准点:"推理正是在答案真的改变时,才值回成本。"

回到综述文章

实用准则

  1. 把同一组多步任务的质量图与成本图配对着读,不要只看质量柱。
  2. 选那个能跨过质量门槛的最低推理强度配置;更高的配置只在评分真的动了时才作为候选。
  3. 往更高的推理强度提之前,先看延迟:强度上去了,等待时间也会拉长。
  4. 工作负载形态一变,就重新测量:这组任务里的上行不会自动延续到别的专题。

实用准则:在多步工作里,先选那个能跨过质量门槛的最低模型/推理强度配置, 只有当这种工作负载形态下配对的质量图真的动了,才提高推理强度。正当化账单的是 质量的上行,而不是花费本身。

打开 benchmark-02 质量图

下一篇: 工具代理:质量触顶之后,真正的变量就变成了延迟 — 在用工具的工作里,当额外推理撞上天花板时,图表最先显示的是什么?