when reasoning pays off

トピック記事 · 隠れた請求の面

見えない推論トークン:回答には現れない、もう一つの請求

推論への移行のあと——あるいは誰かが推論強度(reasoning effort)を上げたあと——回答は依然として短く、ありふれて見えることがある。見えるテキストには、より多く費やしているという気配はどこにもない。それでも、同じワークロードに対して財務とテレメトリはより大きな請求を見ている。自然な問いがおのずと書ける。回答が長くなっていないなら、コストはどこへ行ったのか。

なぜこれを検証したか

習慣はほとんど普遍的だ。チームがリクエストのコストを考えるとき、手を 伸ばすのは目に見えるもの——回答の長さ——だ。短い返答は安く感じられ、 長い返答は高く感じられる。推論以前の時代の大半では、その直感は役に立つ ほどには当たっていた。

そこから、確かめるべききれいなことが手に入る。見える回答の長さが本当に 支出を説明していて、より大きな請求は誰も気づかなかったわずかに長い返答に 隠れているのかもしれない。あるいは、推論モデルがその直感を壊し、コストは ユーザーが決して読まない隠れた推論トークンへ移ったのかもしれない。 どちらが変化を担っているかは、チャートが示せる。

そこで分解した。請求された各リクエストを入力、キャッシュされた入力、 見える出力、隠れた推論に分け、その分解を同じ短い事実回答の測定区間で コスト・品質・レイテンシの隣に読んだ。結果は問いを片づける。見える出力は 推論強度の全段階でわずか約 12.7 から 17.9 トークンしか動かなかったのに 対し、隠れた推論は約 3.7 から 311.5 トークン動いた。コストとレイテンシは 隠れたチャネルとともに伸び、対になる品質チャートはそれに見合って上がら なかった。下の1枚要約はそれを一つの枠で言い切り、続く各節が計測された 詳細を示す。

ひと目で見るトピック。 請求された各リクエストは、入力・ キャッシュ・見える出力・隠れた推論に分かれる——そしてこの測定区間でスケール するのは隠れた推論のチャネルだ。1枚要約は同じメッセージを言い切り、根拠の 境界を示す。続く各節が計測された詳細を加える。 見えない推論トークンの1枚要約 SVG を開く
見えない推論トークンの1枚要約。請求された各リクエストが、入力・キャッシュ・見える出力・隠れた推論のチャネルに分解され、スケールするのは隠れた推論の部分であることを示す。中心メッセージ:推論トークンは請求されるのに決して表示されないので、請求は読めない部分で膨らむ。トークン構成ファミリーからの計測された集計であることを示す。

問い

回答テキストが短いままなら、追加のコストはどこから来たのか。

根拠

benchmark-01 のトークン構成・コスト・レイテンシのチャートを、一本の根拠の連なりとして読む。

わかったこと

目に見える回答の長さはほとんど変わらないのに、隠れた推論トークンは推論強度の段階を上がるほど増えていった。

判断

回答が短いままでも推論トークンはテレメトリで追跡する。隠れたトークンの予算を、応答が見せない請求の一部として扱う。

トピックガイドのチャート(公開集計から手作業で組んだもの)。 この概念図は、チャート一枚ぶんの問い——推論強度別の平均隠れ推論トークンで、各棒の下に平均見える出力を併記——を切り出し、下の元データの表と組み合わせる。公開チャートデータのパイプラインからレンダリングされた元チャートは、さらに下に続く。
棒グラフ:benchmark-01 の推論強度別の平均推論トークン。見える出力のラベル付き。

回答は短く、内部の作業は短くなかった

benchmark-01 で役に立つ意外性は、extra-high effort のコストが高かったこと自体ではない。そこは想定どおりだ。本当に注目すべきは、その増加のうち最終的な回答に現れたぶんがいかに小さかったか、という点である。最小強度では見える出力が平均 12.7 トークン、推論トークンが平均 3.7 トークン。最高強度では見える出力が平均 17.9 トークン、推論トークンが平均 311.5 トークンだった。

つまり、読者が目にするテキストは、購入された計算量の代理指標としては当てにならない。短い回答が大きな推論予算を覆い隠すこともあるし、もっともらしい回答であっても、対になる品質チャートが動かなければ経済的には割の悪い取引になりうる。

チャートの読み方

棒は強度設定ごとの集計値であって、個々のリクエストのヒストグラムではない。X 軸は推論強度の設定、Y 軸はリクエストあたりの平均推論トークン。各棒の下にある小さなラベルは、同じ強度設定の平均見える出力トークン数を示している。

チャートは下から上へ読むとよい。まず、請求額を説明できるほど見える出力が変化したかを問う。次に、隠れた推論の棒と見比べる。この測定区間では、説明要因は回答の長さではない。内部の作業である。

元チャートが付け加えるもの

トークン構成はメカニズムを説明するが、それだけでは足りない。コストチャートは請求額が膨らんでいくことを示す。品質チャートは、その請求でより良い回答が買えたのかを問う。レイテンシチャートはユーザーが体感する待ち時間を示す。三つが揃ってはじめて、隠れた面が読み取れるようになる——この短い事実回答の測定区間では、内部トークンが増え、支出が増え、レイテンシが伸び、それに見合う品質の上積みはなかった。

押さえておきたい要点

教訓は「推論トークンが悪い」ということではない。それらは推論モデルの本質そのものだ。教訓は、推論トークンには仕事が必要だ、という点にある。タスクが短い事実回答しか求めないなら、内部の推論は静かな予算の漏れになりうる。タスクが多段の解決を必要とするなら、同じトークンこそが品質向上を稼ぎ出す当のものになりうる。

だからこそ概要記事は、コスト・品質・レイテンシ・トークン構成を常に並べて扱う。請求額は、回答のなかにすべて見えているわけではない。

根拠の表

元チャート——benchmark-01 のトークン構成。 X 軸: モデルと推論強度の段階——gpt-4o ベースライン、続いて gpt-5.2 の minimal、low、medium、high、extra-high。 Y 軸: リクエストあたりの平均トークン。 積み上げセグメント: 各棒は一つの強度設定を、入力(非 キャッシュ)・キャッシュ入力・見える出力・隠れた推論に積み上げたもの—— 度数のヒストグラムではなく集計の構成。 読み方: 入力と見える出力のセグメントはほとんど変わらず、 隠れた推論のセグメントは最小強度の約 3.7 トークンから最高強度の 約 311.5 へ増える。合計は上るのに、読者が見える部分は短いままだ。 根拠の境界: 強度設定あたり N = 20、R = 3 回の反復、一つの Azure OpenAI テナントとリージョンでのこの短い事実回答の測定区間。多段、 ツールエージェント、統合の作業のトークンの形は示さない。 出典とダッシュボード: セグメントの値は docs/blog/data/chart-data/token-composition/benchmark-01/tokens.json から来ており、エビデンスダッシュボード配信されるチャートデータ)で読む。
benchmark-01 のモデルと推論強度別のリクエストあたり平均トークンの積み上げ棒グラフ。入力と見える出力のセグメントはほぼ一定で、隠れた推論のセグメントは最小強度から最高強度へ急に増える。
benchmark-01 の隠れたトークンの根拠
根拠の行指標 A指標 B付け加わること
Minimal effort見える出力トークン 12.7推論トークン 3.7短い回答、ごく小さな隠れ予算。
Extra-high effort見える出力トークン 17.9推論トークン 311.5テキストは依然短いのに、内部予算ははるかに大きい。
対の品質minimal で 1.88extra-high で 1.78この測定区間では、隠れた作業は品質の上積みにつながらなかった。
レイテンシminimal で 1.1sextra-high で 3.1s隠れた作業は待ち時間も引き伸ばした。

出典と根拠の境界

上記の数値はすべて本リポジトリの公開アーティファクトにたどれ、コストの主張はいずれも日付付きの価格スナップショットで算定している。推論トークンの予算をテレメトリで見えるようにするというこの記事の会計上の習慣は、記事自身の運用上の推論である。下の二つの Tier は、文書化された入力がどこで終わり、推論がどこから始まるのかを示す。

この測定区間が何を示し、何を示さないか:この短い事実回答の測定区間では、見える出力がほとんど動かないまま、内部の推論が推論強度の段階を上がるほど増えたことを示す。同じ隠れたトークンの形が多段、ツールエージェント、統合の作業でも現れることは示さない。各トピックはそれぞれの測定を持つ。

この根拠から言えること

推論トークンの予算は、回答のなかでは見えなくても、テレメトリのなかでは見えているべきだ。これがこのトピックがシリーズに加える、会計上の基本的な習慣である。

概要記事に戻る

実務上のルール

  1. 推論トークンを合計トークンだけでなく、リクエストごとに見える出力の隣に記録してください。
  2. 短い回答でも大きな内部コストを抱えうるため、隠れたトークンの予算にアラートを設定してください。
  3. このワークロードの形で対になる品質チャートが改善されたあとにだけ、より高い推論強度へ引き上げてください。

実務上のルール:見える回答が短いままでも、推論トークンはテレメトリで測定してください。隠れたトークンの予算こそ、応答が見せない請求の一部だ。

トークン構成チャートを開く

次: 多段タスク:推論が試す価値を稼ぐとき — 推論強度を上げると、より大きな請求だけでなく品質の改善も得られるのは、どんなときか。