when reasoning pays off

विषय-लेख · benchmark-03 टूल-एजेंट

टूल-एजेंट: गुणवत्ता सीलिंग पर पहुँचने के बाद असली फ़र्क़ latency का होता है

जब कोई टीम टूल इस्तेमाल करने वाला एजेंट बनाती है और वह ग़लतियाँ करने लगता है, तो पहली सहज प्रतिक्रिया अक्सर यही होती है: इसे थोड़ा और सोचने दो। यह प्रतिक्रिया तर्कसंगत है — टूल-आधारित काम में योजना, टूल-चुनाव, बीच की स्थिति और जवाब का संयोजन शामिल होता है, इसलिए ज़्यादा reasoning असरदार लगती है। लेकिन एक दूसरी संभावना भी है: अगर टूल-रास्ता काफ़ी अच्छा हो और रूब्रिक पहले से शीर्ष के पास हो, तो अतिरिक्त reasoning स्कोर को वहीं रोके रखकर सिर्फ़ latency और लागत बढ़ा सकती है। benchmark-03 जाँचता है कि टूल-एजेंट के इस हिस्से में कौन-सी व्याख्या सही है।

हमने यह क्यों जाँचा

हालात जाने-पहचाने हैं। टीम टूल इस्तेमाल करने वाला एजेंट जारी करती है, कुछ केसों में उसे चूकते देखती है, और सबसे पहले reasoning effort बढ़ाने का मन करता है। तर्क ठीक है। एजेंट का काम सिर्फ़ याद से जवाब देना नहीं है — उसे योजना बनानी होती है, सही टूल चुनना होता है, बीच की स्थिति सँभालनी होती है, और फिर जवाब जोड़ना होता है। इतनी संरचना वाले काम में "और सोचने दो" पहला स्वाभाविक क़दम लगता है।

लेकिन यहाँ दो अलग व्याख्याएँ जाँचनी पड़ती हैं। हो सकता है अतिरिक्त reasoning सचमुच टूल-योजना सुधारे और जवाब बेहतर करे। या फिर टूल-रास्ता और रूब्रिक मिलकर एक सीलिंग बना दें — एजेंट जैसे ही जवाब तक काफ़ी अच्छा रास्ता पा ले, ज़्यादा reasoning स्कोर को शीर्ष के पास रोके रखे और सिर्फ़ latency व लागत बढ़ाए। benchmark-03 जाँचता है कि अमूर्त बहस नहीं, बल्कि मापे गए हिस्से पर कौन-सी व्याख्या सही बैठती है।

इसलिए हमने इसे मापा। benchmark-03 टूल-एजेंट के इस हिस्से को स्थिर रखता है, उसी मॉडल और effort के स्तरों पर चलता है — GPT-4o baseline, फिर GPT-5.2 का none, low, medium, high, extra-high — और हर configuration में latency, लागत और टोकन-आकार के साथ औसत judge स्कोर पढ़ता है। नतीजा साफ़ है। GPT-5.2 ने GPT-4o baseline के ऊपर गुणवत्ता बढ़ाई, लेकिन GPT-5.2 के भीतर अलग-अलग configurations की गुणवत्ता एक सीलिंग (क़रीब 1.97–2.00) के पास सिमट गई, जबकि लागत, latency और reasoning tokens बढ़ते रहे। नीचे का एक-पृष्ठ सार यही बात एक फ़्रेम में कहता है, और आगे के खंड उसका मापा हुआ विवरण देते हैं।

एक नज़र में विषय। सीलिंग छू चुके इस टूल/एजेंट हिस्से में judge स्कोर शीर्ष के पास जाकर सपाट हो जाता है। इसलिए ज़्यादा reasoning effort से ऊँचा स्कोर नहीं मिलता, सिर्फ़ लागत और latency बढ़ती है। एक-पृष्ठ सार यही संदेश देता है और सबूत-सीमा दिखाता है। आगे के खंड मापा हुआ विवरण जोड़ते हैं। टूल-एजेंट सीलिंग का एक-पृष्ठ सार SVG खोलें
टूल और एजेंट सीलिंग-जाँच का एक-पृष्ठ सार। judge स्कोर काम की सीलिंग तक चढ़ता है, फिर पूरे effort स्तरों में सपाट रहता है। केंद्रीय संदेश: सीलिंग छू चुके टूल या एजेंट काम में स्कोर शीर्ष से टकरा जाता है और ज़्यादा reasoning effort उसे ऊपर नहीं उठा सकती, इसलिए बजट वहाँ लगाएँ जहाँ सीलिंग असर नहीं डाल रही। यह एक ही टेनेंट और रीजन पर मापा समुच्चय है।

प्रश्न

टूल-एजेंट की गुणवत्ता पहले से शीर्ष के पास हो, तो अतिरिक्त effort से फिर क्या बदलता है?

सबूत

benchmark-03 के गुणवत्ता, लागत, latency और टोकन-संरचना चार्ट।

नतीजा

GPT-5.2 की गुणवत्ता पूरे effort स्तरों में 1.97–2.00 की सीलिंग पर रही, जबकि लागत प्रति-request $0.002762 से $0.003499 और latency 2.9s से 3.8s तक चढ़ी।

निर्णय

टूल-एजेंट काम को गुणवत्ता-सीलिंग छूने वाले सबसे नीचे effort पर भेजें, और उससे ऊँचे effort को डिफ़ॉल्ट नहीं, बल्कि अलग से जायज़ ठहराने योग्य लागत व latency मानें।

पढ़ने का मार्गदर्शक चार्ट (सार्वजनिक समुच्चय से हाथ से बनाया गया)। क्या पढ़ें: effort-दर-effort औसत latency, हर बार के नीचे साथ वाला औसत judge स्कोर। X-अक्ष: मॉडल/effort combination (gpt-4o baseline, फिर gpt-5.2 का none → extra-high), Y-अक्ष: औसत latency। इसे सीलिंग-प्रभाव की जाँच की तरह पढ़ें: judge गुणवत्ता पहले से रूब्रिक-शीर्ष (क़रीब 1.97–2.00) पर टिकी है, इसलिए बार अब latency दिखाते हैं — यानी अतिरिक्त reasoning effort से ऊँचा स्कोर नहीं मिलता, बल्कि latency, लागत और आंतरिक reasoning tokens बढ़ते हैं। सार्वजनिक चार्ट-डेटा पाइपलाइन से रेंडर हुआ मूल गुणवत्ता-चार्ट नीचे दिया गया है।
बार चार्ट: benchmark-03 के effort-दर-effort latency, judge स्कोर लेबल के साथ।

सीलिंग-प्रभाव ही मुख्य बात है

benchmark-03 ने सीधी एकदिश-वृद्धि की कहानी नहीं दी। GPT-4o का judge स्कोर औसतन 1.85 था। GPT-5.2 ने none पर औसत 1.97, low पर 2.0, medium पर औसत 1.98, high पर औसत 1.97 और extra-high पर 2.0 छुआ। यह baseline से गुणवत्ता-सुधार है, पर साथ ही एक सीलिंग भी।

जैसे ही कई combinations शीर्ष के पास सिमट जाती हैं, effort बढ़ाना अपने-आप अर्थपूर्ण नहीं रह जाता। अगला सबूत latency, टोकन-आकार और समुच्चय-स्कोर के भीतर छिपे विफलता-तरीक़ों से आता है।

चार्ट कैसे पढ़ें

यह चार्ट बार-ऊँचाई के लिए latency इस्तेमाल करता है, क्योंकि गुणवत्ता पहले से शीर्ष के पास सिमट चुकी है। X-अक्ष मॉडल/effort combination है, Y-अक्ष औसत latency (मिलीसेकंड)। हर बार के नीचे का लेबल साथ वाला औसत judge स्कोर दिखाता है।

यह चार्ट जानबूझकर हिस्टोग्राम नहीं है। यह सारांशित configurations की आपसी तुलना है। अगर दो configurations की गुणवत्ता पास-पास है, तो छोटा बार यह सवाल उठाता है कि लंबा इंतज़ार करने से क्या कोई साफ़ दिखने वाला फ़ायदा मिल रहा है।

टूल व्याख्या क्यों बदल देते हैं

टूल-एजेंट काम में टूल-चुनाव, बीच की स्थिति और जवाब का संयोजन शामिल हैं। यही उसे छोटे तथ्यात्मक काम से ज़्यादा माँग वाला बनाता है। साथ ही इसका मतलब यह भी है कि समुच्चय गुणवत्ता-स्कोर अलग तरह के व्यवहार छिपा सकता है। कोई configuration इसलिए पास हुई हो कि टूल ने ज़्यादातर काम कर दिया, या सही टूल इस्तेमाल करने के बावजूद ख़राब सारांश की वजह से नीचे गई हो।

चार्ट जाँच की ज़रूरत ख़त्म नहीं करता — यह बताता है कि कहाँ देखना है। इस रन में आकर्षक क्षेत्र इस पर निर्भर करता है कि आपका मानक कहाँ है। अगर सख़्त 2.00 चाहिए, तो वहाँ पहले पहुँचने वाला combination low है। अगर शीर्ष के क़रीब का स्कोर ही रूब्रिक पूरा कर देता है, तो baseline जैसी latency के क़रीब काम पूरा करने वाला combination none है। दोनों हाल में चाल वही है — मानक पूरा करने वाला सबसे नीचे combination ढूँढो, और ऊँचे effort पर जाने से पहले लागत व latency देखो।

याद रखने योग्य बिंदु

टूल-एजेंट बेंचमार्क को दो तरह से देखना पड़ता है। पहले पूछो कि क्या reasoning ने सहीपन सुधारा। फिर, अगर गुणवत्ता शीर्ष के पास जम गई है, तो पूछो कि कौन-सा combination latency और टोकन के दबाव को क़ाबू में रखता है। दूसरा सवाल बाद में याद आने वाली बात नहीं है — यही नतीजे को बेंचमार्क के बाहर इस्तेमाल लायक़ बनाता है।

सबूत की तालिका

मूल चार्ट — benchmark-03 की judge गुणवत्ता। X-अक्ष: मॉडल और effort के स्तर — gpt-4o baseline, फिर gpt-5.2 का none, low, medium, high, extra-high। Y-अक्ष: 0–2 रूब्रिक पर औसत judge स्कोर। बार: हर बार एक combination का औसत स्कोर — फ़्रीक्वेंसी हिस्टोग्राम नहीं, समुच्चय की तुलना — और व्हिस्कर ±1 मानक विचलन दिखाते हैं। पढ़ने का तरीक़ा: यही वह सीलिंग है जिसकी बात लेख करता है — gpt-4o baseline 1.85 पर है और gpt-5.2 का हर combination संकरी 1.97–2.00 पट्टी में जमती है (none 1.97, low 2.00, medium 1.98, high 1.97, extra-high 2.00)। इसलिए इस स्लाइस में effort बढ़ाने पर भी स्कोर शीर्ष से नहीं हटता। सबूत-सीमा: प्रति combination N = 20, R = 3 दोहराव, एक ही Azure OpenAI टेनेंट और रीजन पर यह टूल-एजेंट का एक मापा गया हिस्सा है। त्रुटि-बार विश्वास-अंतराल नहीं, मानक विचलन हैं, और N = 20 पर p-मान का दावा नहीं। स्रोत और डैशबोर्ड: बार-मान docs/blog/data/chart-data/cost-curves-effort/benchmark-03/quality.json से आते हैं; एविडेंस डैशबोर्ड (परोसा गया चार्ट-डेटा) में latency और लागत चार्ट के बग़ल में पढ़ें।
benchmark-03 के मॉडल और effort-दर-effort औसत judge स्कोर का बार चार्ट। gpt-4o baseline क़रीब 1.85 है, और gpt-5.2 के सभी effort combinations क़रीब 1.97–2.00 की संकरी पट्टी में जमे हैं। मानक-विचलन व्हिस्कर के साथ।
benchmark-03 की गुणवत्ता और latency का सबूत
सबूत-पंक्तिमीट्रिक Aमीट्रिक Bक्या जुड़ता है
GPT-4o baselinejudge स्कोर 1.85औसत latency 3.0sमज़बूत baseline, पर सीलिंग नहीं।
GPT-5.2 nonejudge स्कोर 1.97औसत latency 2.9sलगभग वही latency पर गुणवत्ता ऊपर।
GPT-5.2 lowjudge स्कोर 2.00औसत latency 3.1sथोड़ी latency-वृद्धि पर सीलिंग स्कोर।
GPT-5.2 extra-highjudge स्कोर 2.00औसत latency 3.8sवही सीलिंग स्कोर, पर ज़्यादा धीमा।

स्रोत और सबूत-सीमा

ऊपर का हर मान इस रिपॉज़िटरी की किसी सार्वजनिक कलाकृति तक जाता है, और हर लागत-दावा एक दिनांकित मूल्य-स्नैपशॉट पर आधारित है। गुणवत्ता-सीलिंग छूते ही सबसे नीचे effort पर रुकने की जो सलाह यह लेख देता है, वह इसकी अपनी संचालन-व्याख्या है। नीचे की दो श्रेणियाँ बताती हैं कि प्रलेखित इनपुट कहाँ ख़त्म होता है और अनुमान कहाँ से शुरू होता है।

यह मापा गया हिस्सा क्या सिद्ध करता है और क्या नहीं: इस टूल-एजेंट हिस्से में reasoning effort बढ़ाने पर गुणवत्ता सीलिंग से टकराई — GPT-5.2 का स्कोर 1.97–2.00 पट्टी से बाहर नहीं गया — जबकि लागत effort के स्तरों के साथ बढ़ती रही। लेकिन यह सिद्ध नहीं करता कि वही सीलिंग छोटे तथ्यात्मक, multi-step या इंटीग्रेशन काम में भी उसी effort स्तर पर दिखेगी। हर विषय का अपना मापन है।

इस सबूत से क्या कहा जा सकता है

टूल-एजेंट काम में काम का वाक्य "effort बढ़ाओ" नहीं है। यह है: "सचमुच ज़रूरी एजेंट-व्यवहार बनाए रखने वाला सबसे नीचे effort ढूँढो।"

सिंहावलोकन लेख पर लौटें

व्यावहारिक नियम

  1. गुणवत्ता-चार्ट को सिर्फ़ गुणवत्ता-बार से नहीं, उसी benchmark-03 combination के लागत-चार्ट और latency-चार्ट के साथ जोड़कर पढ़ें।
  2. गुणवत्ता-मानक — सख़्त 2.00 हो या स्वीकार्य शीर्ष-पास स्कोर — पूरा करने वाला सबसे नीचे effort combination ढूँढें और उसे डिफ़ॉल्ट बनाएँ।
  3. उससे ऊँचे effort को दृश्य स्कोर-हलचल से जायज़ ठहराने योग्य लागत व latency मानें।
  4. भरोसा करने से पहले समुच्चय जाँचें। पास हुआ combination रीज़निंग नहीं, टूल पर टिका हो सकता है।
  5. वर्कलोड-आकार बदलने पर दोबारा मापें। यह सीलिंग टूल-एजेंट काम तक सीमित है।

व्यावहारिक नियम: इस टूल-एजेंट हिस्से में गुणवत्ता सीलिंग छू ले तो reasoning effort बढ़ाना बंद करें। अतिरिक्त effort से ऊँचा स्कोर नहीं मिला, सिर्फ़ लागत और latency बढ़ी।

benchmark-03 गुणवत्ता चार्ट खोलें

आगे: PTU/PAYG क्रॉसओवर: क्षमता का नतीजा नहीं, योजना की रेखा — वर्कलोड साइज़ करने के बाद प्रोविज़न्ड throughput कब PAYG से ऊपर निकलता है?