トピック記事 · 隠れた請求の面
見えない推論トークン:回答には現れない、もう一つの請求
推論への移行のあと——あるいは誰かが推論強度(reasoning effort)を上げたあと——回答は依然として短く、ありふれて見えることがある。見えるテキストには、より多く費やしているという気配はどこにもない。それでも、同じワークロードに対して財務とテレメトリはより大きな請求を見ている。自然な問いがおのずと書ける。回答が長くなっていないなら、コストはどこへ行ったのか。
なぜこれを検証したか
習慣はほとんど普遍的だ。チームがリクエストのコストを考えるとき、手を 伸ばすのは目に見えるもの——回答の長さ——だ。短い返答は安く感じられ、 長い返答は高く感じられる。推論以前の時代の大半では、その直感は役に立つ ほどには当たっていた。
そこから、確かめるべききれいなことが手に入る。見える回答の長さが本当に 支出を説明していて、より大きな請求は誰も気づかなかったわずかに長い返答に 隠れているのかもしれない。あるいは、推論モデルがその直感を壊し、コストは ユーザーが決して読まない隠れた推論トークンへ移ったのかもしれない。 どちらが変化を担っているかは、チャートが示せる。
そこで分解した。請求された各リクエストを入力、キャッシュされた入力、 見える出力、隠れた推論に分け、その分解を同じ短い事実回答の測定区間で コスト・品質・レイテンシの隣に読んだ。結果は問いを片づける。見える出力は 推論強度の全段階でわずか約 12.7 から 17.9 トークンしか動かなかったのに 対し、隠れた推論は約 3.7 から 311.5 トークン動いた。コストとレイテンシは 隠れたチャネルとともに伸び、対になる品質チャートはそれに見合って上がら なかった。下の1枚要約はそれを一つの枠で言い切り、続く各節が計測された 詳細を示す。
問い
回答テキストが短いままなら、追加のコストはどこから来たのか。
根拠
benchmark-01 のトークン構成・コスト・レイテンシのチャートを、一本の根拠の連なりとして読む。
わかったこと
目に見える回答の長さはほとんど変わらないのに、隠れた推論トークンは推論強度の段階を上がるほど増えていった。
判断
回答が短いままでも推論トークンはテレメトリで追跡する。隠れたトークンの予算を、応答が見せない請求の一部として扱う。
回答は短く、内部の作業は短くなかった
benchmark-01 で役に立つ意外性は、extra-high effort のコストが高かったこと自体ではない。そこは想定どおりだ。本当に注目すべきは、その増加のうち最終的な回答に現れたぶんがいかに小さかったか、という点である。最小強度では見える出力が平均 12.7 トークン、推論トークンが平均 3.7 トークン。最高強度では見える出力が平均 17.9 トークン、推論トークンが平均 311.5 トークンだった。
つまり、読者が目にするテキストは、購入された計算量の代理指標としては当てにならない。短い回答が大きな推論予算を覆い隠すこともあるし、もっともらしい回答であっても、対になる品質チャートが動かなければ経済的には割の悪い取引になりうる。
チャートの読み方
棒は強度設定ごとの集計値であって、個々のリクエストのヒストグラムではない。X 軸は推論強度の設定、Y 軸はリクエストあたりの平均推論トークン。各棒の下にある小さなラベルは、同じ強度設定の平均見える出力トークン数を示している。
チャートは下から上へ読むとよい。まず、請求額を説明できるほど見える出力が変化したかを問う。次に、隠れた推論の棒と見比べる。この測定区間では、説明要因は回答の長さではない。内部の作業である。
元チャートが付け加えるもの
トークン構成はメカニズムを説明するが、それだけでは足りない。コストチャートは請求額が膨らんでいくことを示す。品質チャートは、その請求でより良い回答が買えたのかを問う。レイテンシチャートはユーザーが体感する待ち時間を示す。三つが揃ってはじめて、隠れた面が読み取れるようになる——この短い事実回答の測定区間では、内部トークンが増え、支出が増え、レイテンシが伸び、それに見合う品質の上積みはなかった。
押さえておきたい要点
教訓は「推論トークンが悪い」ということではない。それらは推論モデルの本質そのものだ。教訓は、推論トークンには仕事が必要だ、という点にある。タスクが短い事実回答しか求めないなら、内部の推論は静かな予算の漏れになりうる。タスクが多段の解決を必要とするなら、同じトークンこそが品質向上を稼ぎ出す当のものになりうる。
だからこそ概要記事は、コスト・品質・レイテンシ・トークン構成を常に並べて扱う。請求額は、回答のなかにすべて見えているわけではない。
根拠の表
docs/blog/data/chart-data/token-composition/benchmark-01/tokens.json
から来ており、エビデンスダッシュボード
(配信されるチャートデータ)で読む。
| 根拠の行 | 指標 A | 指標 B | 付け加わること |
|---|---|---|---|
| Minimal effort | 見える出力トークン 12.7 | 推論トークン 3.7 | 短い回答、ごく小さな隠れ予算。 |
| Extra-high effort | 見える出力トークン 17.9 | 推論トークン 311.5 | テキストは依然短いのに、内部予算ははるかに大きい。 |
| 対の品質 | minimal で 1.88 | extra-high で 1.78 | この測定区間では、隠れた作業は品質の上積みにつながらなかった。 |
| レイテンシ | minimal で 1.1s | extra-high で 3.1s | 隠れた作業は待ち時間も引き伸ばした。 |
出典と根拠の境界
上記の数値はすべて本リポジトリの公開アーティファクトにたどれ、コストの主張はいずれも日付付きの価格スナップショットで算定している。推論トークンの予算をテレメトリで見えるようにするというこの記事の会計上の習慣は、記事自身の運用上の推論である。下の二つの Tier は、文書化された入力がどこで終わり、推論がどこから始まるのかを示す。
- [1] Tier 1 — 方法論の契約: 本リポジトリ、
docs/05-methodology.md(v1.0)。強度設定あたり N = 20 のサンプル、R = 3 回の反復、公開集計の測定区間のみ。チャート読解の本文はこの固定された前提に立っており、誤差バーは信頼区間ではなく標準偏差で、N = 20 で p 値は主張しない。 - [2] Tier 1 — PAYG 価格スナップショット: リクエストあたりのコストは本リポジトリの
pricing/azure-openai-payg-2026-05.yamlで算定している。出典:Azure OpenAI 価格ページ(2026-05-19 アクセス)· アーカイブ。定価が動けば隠れたトークンの請求も変わる。 - [3] Tier 2 — benchmark-01 区間の測定: 本リポジトリ、
benchmarks/01-short-factual/analysis.json。推論トークンの 3.655172 から 311.474576 への変化、見える出力の 12.672414 から 17.881356 への移動、評価スコアの 1.87931 から 1.779661、レイテンシの 1112.798745 ms から 3088.001225 ms への伸びの出典。 - [4] Tier 2 — レンダリング済みチャートデータ: 本リポジトリ、
docs/blog/data/chart-data/token-composition/benchmark-01/tokens.jsonがトークン分解の出典。docs/blog/data/chart-data/cost-curves-effort/benchmark-01/cost-per-request.json、quality.json、latency.jsonと一緒に読むと、隠れたトークンが品質の上積みを伴わずに請求と待ち時間を膨らませたという根拠になる。 - [5] エビデンスダッシュボード: レンダリングされた benchmark-01 トークン構成チャートは、同じアーティファクトを監査できる形である。
この測定区間が何を示し、何を示さないか:この短い事実回答の測定区間では、見える出力がほとんど動かないまま、内部の推論が推論強度の段階を上がるほど増えたことを示す。同じ隠れたトークンの形が多段、ツールエージェント、統合の作業でも現れることは示さない。各トピックはそれぞれの測定を持つ。
この根拠から言えること
推論トークンの予算は、回答のなかでは見えなくても、テレメトリのなかでは見えているべきだ。これがこのトピックがシリーズに加える、会計上の基本的な習慣である。
実務上のルール
- 推論トークンを合計トークンだけでなく、リクエストごとに見える出力の隣に記録してください。
- 短い回答でも大きな内部コストを抱えうるため、隠れたトークンの予算にアラートを設定してください。
- このワークロードの形で対になる品質チャートが改善されたあとにだけ、より高い推論強度へ引き上げてください。
実務上のルール:見える回答が短いままでも、推論トークンはテレメトリで測定してください。隠れたトークンの予算こそ、応答が見せない請求の一部だ。
次: 多段タスク:推論が試す価値を稼ぐとき — 推論強度を上げると、より大きな請求だけでなく品質の改善も得られるのは、どんなときか。