when reasoning pays off

博客 / 证据笔记

文章

证据看板是审计线索,文章是决策故事。每篇文章都从一个问题开始,指明用来 回答它的图表,并以一条面向运维者的要点收尾。你可以按顺序阅读,也可以直接 跳到你需要的那一层。

这条脉络从论断走向实践。概览文章给出单一信息与证据 边界。证据主题逐一展开每一类实测任务。衔接 文章标出语气从测量转向生产的位置。运维文章把同样的测量 习惯带入日常运行 — 恢复、缓存路由、保留与迁移容量规划。在这一切之下, 证据看板保存着每条论断所依据的 受治理表格与源图表。

概览文章:相同的 Token 单价,不同的账单

对公开图表数据快照的引导式阅读:推理强度在哪里浪费支出、在哪里值得 一试,以及为什么必须把隐藏的推理 Token 明确纳入预算。

阅读概览文章

概览文章中的主题

简短的事实性工作

成本上升却没有相应的质量提升。

阅读此主题

不可见的推理 Token

即使输出看起来相似,内部 Token 也能解释账单为何变化。

阅读此主题

多步工作

当评估者移动得足够多时,推理可能物有所值。

阅读此主题

工具型智能体的上限检查

智能体工作负载需要把质量和延迟放在一起看。

阅读此主题

智能体循环与预算治理

不是新的测量,而是运维模式(L6):约束上限检查够不到的循环。

阅读此主题

PTU/PAYG 规划

建模得到的交叉点是规划指引,而非直接的容量证据。

阅读此主题

证据看板

查看文字背后受治理的表格与渲染的源图表。

打开证据看板

衔接文章

有一篇文章位于证据层与运维层之间,说明语气为何转变,以及哪些习惯会一路 延续。

从测量到生产

证据层的测量习惯如何延续到生产运维,又有什么保持不变。

阅读衔接文章

运维文章

这些文章再向生产运维靠近一层:恢复、缓存路由、保留与迁移容量规划。

retry-after-ms 从 429 恢复

为什么 PTU 恢复应当遵循服务返回的头部,而不是健康检查轮询。

阅读本文

prompt_cache_key 分桶

缓存键是路由亲和性控制;按工作负载分桶,而不是按请求 ID。

阅读本文

显式缓存保留

当操作假定更长的缓存窗口时,把保留作为一项显式的请求策略。

阅读本文

推理模型迁移容量规划

通过输出权重、推理 Token、缓存形状和最大 Token 策略来解释 PTU 需求。

阅读本文