博客 / 证据笔记

文章

证据看板是审计线索，文章是决策故事。每篇文章都从一个问题开始，指明用来回答它的图表，并以一条面向运维者的要点收尾。你可以按顺序阅读，也可以直接跳到你需要的那一层。

这条脉络从论断走向实践。概览文章给出单一信息与证据边界。证据主题逐一展开每一类实测任务。衔接文章标出语气从测量转向生产的位置。运维文章把同样的测量习惯带入日常运行 — 恢复、缓存路由、保留与迁移容量规划。在这一切之下，证据看板保存着每条论断所依据的受治理表格与源图表。

概览文章：相同的 Token 单价，不同的账单

对公开图表数据快照的引导式阅读：推理强度在哪里浪费支出、在哪里值得一试，以及为什么必须把隐藏的推理 Token 明确纳入预算。

阅读概览文章

概览文章中的主题

简短的事实性工作

成本上升却没有相应的质量提升。

阅读此主题

不可见的推理 Token

即使输出看起来相似，内部 Token 也能解释账单为何变化。

阅读此主题

多步工作

当评估者移动得足够多时，推理可能物有所值。

阅读此主题

工具型智能体的上限检查

智能体工作负载需要把质量和延迟放在一起看。

阅读此主题

智能体循环与预算治理

不是新的测量，而是运维模式（L6）：约束上限检查够不到的循环。

阅读此主题

PTU/PAYG 规划

建模得到的交叉点是规划指引，而非直接的容量证据。

阅读此主题

证据看板

查看文字背后受治理的表格与渲染的源图表。

打开证据看板

衔接文章

有一篇文章位于证据层与运维层之间，说明语气为何转变，以及哪些习惯会一路延续。

从测量到生产

证据层的测量习惯如何延续到生产运维，又有什么保持不变。

阅读衔接文章

运维文章

这些文章再向生产运维靠近一层：恢复、缓存路由、保留与迁移容量规划。

用 `retry-after-ms` 从 429 恢复

为什么 PTU 恢复应当遵循服务返回的头部，而不是健康检查轮询。

阅读本文

`prompt_cache_key` 分桶

缓存键是路由亲和性控制；按工作负载分桶，而不是按请求 ID。

阅读本文

显式缓存保留

当操作假定更长的缓存窗口时，把保留作为一项显式的请求策略。

阅读本文

推理模型迁移容量规划

通过输出权重、推理 Token、缓存形状和最大 Token 策略来解释 PTU 需求。

阅读本文

文章

概览文章：相同的 Token 单价，不同的账单

概览文章中的主题

简短的事实性工作

不可见的推理 Token

多步工作

工具型智能体的上限检查

智能体循环与预算治理

PTU/PAYG 规划

证据看板

衔接文章

从测量到生产

运维文章

用 retry-after-ms 从 429 恢复

prompt_cache_key 分桶

显式缓存保留

推理模型迁移容量规划

用 `retry-after-ms` 从 429 恢复

`prompt_cache_key` 分桶