運用エッセイ · プロンプトキャッシュ保持期間

保持期間は前提ではなく、リクエストのポリシーである

対応モデルは対象となるプレフィックスを既定でキャッシュするため、プロンプトキャッシュは自動的に効くように感じられます。だからそれに寄りかかりたくなります ——ワークロードはアイドルの隙間のあと、シフトの境界をまたいで、バッチの一時停止のあと、あるいは後の顧客ターンで共有プレフィックスを再利用し、リクエストボディは単に prompt_cache_retention を省略して、ウィンドウがまだそこにあると信じます。しかし「既定でキャッシュされる」は「運用が前提とするだけの長さ保持される」と同じではありません。リクエストが保持期間を省略すると、運用は一度も要求していないキャッシュウィンドウを当てにしているかもしれません——だから運用上の問いは「キャッシュは効いているか」ではなく、「このワークロードが依存する再利用ウィンドウを、リクエストは実際に要求したか」です。

なぜ前提にせず、ウィンドウを設定するのか

「既定で十分」という反射は、キャッシュのウィンドウが、ワークロードが再利用のあいだに残す間隔より長く生き延びる、と仮定します。それを受け入れる前に、二つのことを並べておく価値があります。一つ目は Microsoft Learn が文書化していることです。保持ポリシーは二つあり、in_memory と 24h です。インメモリのエントリは通常、非アクティブになってから 5〜10 分以内にクリアされ、最後の使用から 1 時間以内には必ず削除されます。一方、拡張保持はキャッシュ済みプレフィックスを最大 24 時間までルーティング可能に保てます。gpt-5.4 以前のモデルでは値の省略は in_memory を意味し、プロンプトキャッシュの価格はどちらのポリシーでも同じです。二つ目は、本リポジトリのソース実行から取った、保持モードでグループ化した疎なサニタイズ済みの公開集計で、in_memory と 24h のもとで初回トークンのレイテンシとキャッシュヒット率が実際にどう動いたかを記述的に示すために含めています。

立ち止まる価値があるのは、その対の部分です。ヒット率だけを見ると安心材料に読めますが、保持の選択は別のところに現れます。この測定区間では両モードとも高いヒット率（約 0.93〜0.96）を保ったので、ヒット率だけを読めば保持モードはほとんど効かないように見えてしまいます。初回トークンのレイテンシの裾が、もう半分の物語を語ります——カーディナリティ 1 で in_memory 系列は約 106,000 ms の p95 にあり、24h 系列は約 9,900 ms にありました。だから保持の選択はヒット率ではなくレイテンシの裾に現れました。だからこそ保持期間は、キャッシュ済みトークンの比率の隣でレイテンシとともに読むべきであり、単なる性能調整の設定ではなくリクエストのポリシーでありガバナンスの選択なのです。二つの保持モード、その寿命、 in_memory の既定、同一の価格、拡張保持のリージョン内条件は Microsoft Learn が文書化しているものです。レイテンシをヒット率の隣に置いた公開の測定データは、本リポジトリが擁護するソース実行の根拠であって、普遍的なレイテンシ曲線ではありません。下のチャートがその対を明示します。

問い

後でキャッシュの再利用を見込んでいる運用において、リクエストは実際にその保持期間を要求しているか?

根拠

Microsoft Learn が保持モードを定義し、本リポジトリが断片的な公開レイテンシとヒット率の根拠を補足します。

判断

保持期間を明示し、プレフィックスを安定させ、レイテンシをキャッシュ済みトークンの比率と並べて読みます。

公式の挙動 · 2 つの保持モード

自動キャッシュは、明示的な保持期間と同じではない

Microsoft Learn は 2 つのプロンプトキャッシュ保持ポリシー、 in_memory と 24h を説明しています。インメモリのキャッシュエントリは、通常は非アクティブになってから 5〜10 分以内にクリアされ、最後の使用から 1 時間以内には必ず削除されます。拡張保持を使えば、キャッシュ済みプレフィックスを最大 24 時間まで、より長くアクティブに保てます。

既定は短いことがある

gpt-5.4 以前のモデルでは、保持期間を省略すると in_memory を意味します。

長い再利用は明示する

後からの再利用を見込む運用なら、対応している箇所で prompt_cache_retention を 24h に設定します。

価格は判断材料にならない

Microsoft Learn は、プロンプトキャッシュの価格はどちらの保持ポリシーでも同じだと述べています。

観測された根拠 · 断片的な公開測定区間

レイテンシが保持期間の選択を可視化した

TTFT p95 とキャッシュヒット率を比較するプロンプトキャッシュ保持期間の根拠チャート。 — **読み取るチャート:** 公開された集計済みキャッシュキーの測定区間を、保持モードでグループ化したものです。左パネルは最初のトークンまでの時間の p95 を示します。右パネルはキャッシュヒット率を示します。各グループは同じカーディナリティについて `in_memory` と `24h` を比較しています。

保持モードごとに 1 本の線を引いた、バケットのカーディナリティ（log2 軸）に対する定常状態の初回トークンまでの p95 時間の折れ線グラフ。in_memory の線は単一バケットで約 10 万 6 千ミリ秒と非常に高く始まり、8 バケットで約 1 万 6 千へ下がる。一方 24h の線は低いままで、約 1 万〜1 万 5 千ミリ秒付近でおおむね横ばい。 — **元チャート——保持モード別の初回トークンレイテンシ p95。** **X 軸：** log2 スケールのバケットのカーディナリティ（1、続いて 8）。 **Y 軸：** 定常状態の初回トークンまでの p95 時間（ミリ秒）。線：本記事が比較する二つの保持ポリシー——`in_memory` と `24h`、それぞれ N = 960 レコード。二系列の折れ線グラフであって、度数のヒストグラムではありません。 **読み方：** カーディナリティ 1 で `in_memory` 系列は約 106,000 ms の p95 にあり、`24h` 系列は約 9,900 ms にありました——この設定では保持の選択がレイテンシの裾に見えました——そしてトラフィックが 8 バケットに広がると二つの系列は近づきました。 **根拠の境界：** 従量課金の gpt-5.2 での一つの疎なサニタイズ済み公開集計（PTU ではありません）。ソース実行の根拠であり、普遍的なレイテンシ規則ではありません。 **出典：** `results/cache-key-bucketing/ttft_p95_vs_cardinality.csv` （ソース CSV）。

保持モードごとに 1 本の線を引いた、バケットのカーディナリティ（log2 軸）に対する定常状態のキャッシュヒット率の折れ線グラフ。in_memory と 24h の二本の線がいずれも約 0.93〜0.96 と高く、単一バケットでは 24h の線がわずかに高く、カーディナリティが増えてもほぼ横ばい。 — **対になる元チャート——保持モード別のキャッシュヒット率。** **X 軸：** 同じ log2 のバケットカーディナリティ軸（1、続いて 8）。 **Y 軸：** 定常状態のキャッシュヒット率、0〜1。線：同じ `in_memory` と `24h` 系列、それぞれ N = 960。 **読み方：** この測定区間では両系列とも高いまま（約 0.93〜0.96）で、カーディナリティ 1 では `24h` 系列がわずかに高くなりました。ここでのより大きな保持の差は、ヒット率ではなく上のレイテンシのパネルに現れました——だからこそ保持期間は、キャッシュ済みトークンの比率の隣でレイテンシとともに読むべきです。 **根拠の境界：** 従量課金の gpt-5.2 での同じ疎なサニタイズ済み公開集計（PTU ではありません）。記述的であり、普遍的なキャッシュヒット規則ではありません。 **出典：** `results/cache-key-bucketing/cache_hit_ratio_vs_cardinality.csv` （ソース CSV）。

公開された保持期間の根拠
保持	カーディナリティ	ヒット率	TTFT p95	定常レコード数
in-memory	1	0.9334	106,389.96 ms	388
24h	1	0.9612	9,899.74 ms	390
in-memory	8	0.9586	16,623.66 ms	389
24h	8	0.9612	15,549.08 ms	389

これが示すこと、示さないこと

この測定区間では、カーディナリティ 1 の設定が最初のトークンのレイテンシにおいて保持期間を可視化しました。それはソース実行から得た根拠であり、普遍的な規則ではありません。長く通用する教訓はもっと単純で、保持モード・ヒット率・レイテンシをまとめて読む、ということです。

運用ポリシー · 曖昧さには安全側で倒す

保持期間が重要なら、その選択を観測可能にする

公開リポジトリには、文書化された既定が in_memory であるモデルに対して値の省略を拒否する、小さな保持ポリシーのヘルパーが含まれています。厳しく聞こえますが、これはよくある失敗パターンを防ぎます。設計はより長いキャッシュ期間を前提にしているのに、リクエストボディは黙って短い既定を採用してしまう、という事態です。

良い例

ワークロードが後からの再利用に依存するときの prompt_cache_retention="24h"。

これも良い例

ワークロードが短い再利用だけを必要とし、それを明示しているときの prompt_cache_retention="in_memory"。

危うい例

運用手順書はより長い期間を前提としているのに、値を未指定のまま放置すること。

ガバナンスに関する注記 · 保持期間はレイテンシだけの話ではない

長い保持期間にはガバナンスの確認も必要

Microsoft Learn は、インメモリのプロンプトキャッシュはすべてのデータ所在リージョンと互換性があると述べています。拡張保持については、キャッシュデータがリージョン内にとどまるのは Regional Standard または Regional Provisioned モードの場合のみだとしています。これにより保持期間は、パフォーマンス上の判断であると同時にガバナンス上の判断にもなります。

拡張保持はしたがって、性能上の判断であると同時にガバナンス上の判断でもあります。拡張ウィンドウに頼る前に、サービングモードがキャッシュデータをリージョン内に保つことを確認し、その選択を既定値に委ねないようにしてください。

出典と根拠の境界

Tier 1 — サービス契約（Microsoft Learn）。 二つの保持ポリシー、インメモリのクリアと削除のウィンドウ、24 時間の拡張保持上限、 gpt-5.4 以前の in_memory 既定、両ポリシーで同一の価格、そしてデータ所在の挙動が、ここに文書化されています。

[1] Prompt caching with Azure OpenAI — in_memory と 24h の保持ポリシー、非アクティブ後 5〜10 分以内のインメモリのクリアと最後の使用から 1 時間以内の削除、24 時間の拡張保持上限、 gpt-5.4 以前のモデルでの in_memory 既定、両保持ポリシーで同一のプロンプトキャッシュ価格、そして拡張保持がキャッシュデータをリージョン内に保つのは Regional Standard または Regional Provisioned のデプロイタイプの場合のみ、というデータ所在の規則を文書化しています。出典：Microsoft Learn ドキュメント（2026-06-04 アクセス）· アーカイブ。

Tier 2 — 運用上の推論（本リポジトリ）。 in_memory 既定のモデルで値が省略されたときに安全側へ倒す保持ポリシーのヘルパーと、疎な公開のヒット率と初回トークンレイテンシの測定データは、Learn の仕様ではなく本リポジトリの運用上の推論でありソース実行の根拠です。

[2] 本リポジトリ、docs/12-prompt-cache-key-policy.md — プロンプトキャッシュキーと保持期間の運用手順書。§4 は文書化されたモデル別の既定から in_memory 既定の表を導き、prompt_cache_retention を明示することを規定します。出典。
[3] 本リポジトリ、batch-runner/batch_runner/cache/retention_policy.py — 文書化された既定が in_memory であるモデルで値が省略されたときに例外を投げる ensure_explicit ヘルパー。Learn の仕様ではなく運用上の推論です。出典。
[4] 本リポジトリ、results/cache-key-bucketing/cache_hit_ratio_vs_cardinality.csv — 保持期間のヒット率と初回トークンレイテンシの表の背後にある、疎な公開集計の測定区間。普遍的なレイテンシ規則ではなくソース実行の根拠です。出典。

このトピックが証明するものとしないもの。 アクセス日時点で Microsoft Learn が明示するプロンプトキャッシュ保持の契約——in_memory と 24h のポリシー、インメモリのクリアと削除のウィンドウ、24 時間の拡張上限、gpt-5.4 以前の in_memory 既定、両ポリシーで同一の価格、拡張保持のリージョン内条件——と、prompt_cache_retention を明示し、in_memory 既定のモデルで省略されたら安全側へ倒す、という本リポジトリの経験則を文書化します。単一の測定区間の観測では、カーディナリティ 1 で保持期間が初回トークンレイテンシに可視化されたことを示しました。それはソース実行の根拠であって、すべてのモデル・リージョン・トラフィック形状にわたる普遍的なレイテンシ曲線の証明ではありません。

実務上のルール

実務上のルール：in_memory にフォールバックしうるモデルで、短い待機ウィンドウを越えてキャッシュの再利用を生かす必要があるなら、既定値を信頼せず prompt_cache_retention を明示的に設定し、キャッシュ可能なプレフィックスを安定させ、要求したウィンドウが得られたウィンドウであることを確かめるために、キャッシュ済みトークンの比率の隣で初回トークンのレイテンシを読んでください。

次の記事は、単一リクエストのキャッシュポリシーから、GPT-4o のワークロード全体を PTU 上の GPT-5.x へリサイズするときに何が変わるかへと移ります。

GPT-4o のトラフィックが PTU 上の GPT-5.x へ移るとき、容量の計算で実際に何が変わるか