同じトークン単価、異なる請求額

あるチームがワークロードを推論モデルへ移行し、以前と同じに見えるトークン単価を確認したところ、新しいダイヤルに気づきます。推論強度です。それを上げるのはほとんど無料のように感じられます — であれば、あらゆる場面でより良い回答を買わない理由があるでしょうか？ところが、目に見える出力はほとんど変わらないのに請求額は上がります。理由は隠れた「思考」トークンです。推論モデルはこれを生成して課金しますが、応答には決して表示しません。本プロジェクトは、代表的な少数のタスクにおいて、その追加トークンがいつコストに見合い、いつ請求額だけを膨らませるのかを測定します。

なぜチームが気にするのか

モデル移行のあと、エンジニアに届く問いは率直です。なぜコストが動いたのか、なぜレイテンシが変わったのか、なぜスロットリングが増えたのか。推論強度はこの 3 つすべての土台にあります。既定値を高くしておくと、読者には決して届かない内部計算にトークンを静かに消費します — 従量課金では実際のコストとして、プロビジョニング容量では貴重な余力として。強度が実際に回答を変える地点を知ることが、自信のあるロールアウトと請求書での予想外の事態を分ける違いです。

何を測定したか

プロンプトとワークロードの区分を固定したまま、同じ推論強度のはしごを各区分に適用しました — 短い事実回答、構造化データから自然言語への変換、多段階の推論、ツールを使うエージェント — そしてすべての呼び出しで使用量の完全な内訳を記録しました。入力・キャッシュ・推論・出力トークンに加え、品質シグナルとレイテンシも収集しています。その測定されたトークン構成の上に、同じワークロードが従量課金（PAYG）とプロビジョニングされたスループット（PTU）でそれぞれどのように課金されるかという、モデル化された視点を重ねました。

根拠が示したこと

結果は、良い根拠がそうあるべきように分かれました — ある場所では強度が見合い、ある場所では隠れた計算だけを買いました。4 つの教訓が区分全体にわたって当てはまります。

推論トークンは必ず測定する

課金されるのに応答には返されません。すべての呼び出しで、入力・キャッシュ・推論・出力に分けた使用量の内訳を記録してください。

すべてのタスクに推論が必要なわけではない

短い事実回答、構造化データから自然言語への変換、単純な分類では、品質が伴って上がらないままコストだけが増える場合が多くありました。

推論強度が主要なコストレバー

推論強度のノブはまず最も低いレベルを既定とし、品質評価が支出を正当化する場合にのみ引き上げてください。

課金モデルによって効果が変わる

従量課金（PAYG）では、推論トークンを削減すると請求額が下がります。プロビジョニングされたスループット（PTU）では、同じ削減が固定請求額のままスループット向上として現れます。

対象読者

Azure OpenAI デプロイを運用し、推論を有効にするかどうか（そしてどの程度）を判断したり、容量を見積もったり、モデル移行後のコスト・レイテンシ・スロットリングの変化をデバッグしたりするエンジニアとアーキテクト向けです。

次に読むもの

概要記事を読む

案内付きの物語：強度がどこで支出を無駄にし、どこで試す価値を得るのか、そしてなぜ隠れたトークンを明示的に予算化すべきか。読み始める →

記事ハブを見る

読みの全体の流れ — 根拠トピック、ブリッジ記事、そして復旧・キャッシュ・サイジングに関する運用ノート。ハブを開く →

根拠ダッシュボードを調べる

監査証跡：すべての主張の背後にある管理されたテーブルとレンダリングされたソースチャート。ダッシュボードを開く →

完全な方法論を読む

意思決定フレームワークと運用ガイドはリポジトリのドキュメントにあります。 GitHub で見る →

用語集

Foundry: Azure AI Foundry — 本プロジェクトで測定したモデルをデプロイ・提供するマネージドプラットフォーム。
PTU: プロビジョニングされたスループット単位 — トークン単位ではなくスループットに対して支払う予約済み固定容量の課金。
PAYG: 従量課金 — 入力・キャッシュ・推論・出力の各トークンごとに課金される消費ベースの課金。
推論トークン: 推論モデルが生成し課金されるが、応答には返されない内部の「思考」トークン。
キャッシュ: プロンプトキャッシュ — 以前に処理されたプロンプトの接頭部を再利用し、低いキャッシュ入力単価で課金される。
429: HTTP 429 Too Many Requests — デプロイがレートまたは容量の上限を超えたときに返されるスロットリング応答。