when reasoning pays off
दो वर्कलोड समान प्रति-टोकन मूल्य चुकाते हैं, लेकिन रीज़निंग वर्कलोड पर अदृश्य 'सोच' टोकन का अतिरिक्त शुल्क लगता है, इसलिए उसका कुल बिल अधिक होता है।

वही टोकन मूल्य, अलग बिल

कोई टीम किसी वर्कलोड को रीज़निंग मॉडल पर ले जाती है, पहले जैसा ही प्रति-टोकन मूल्य देखती है, और एक नया डायल पाती है: रीज़निंग एफर्ट। उसे बढ़ाना लगभग मुफ़्त-सा लगता है — तो फिर हर जगह बेहतर उत्तर क्यों न खरीदें? लेकिन दिखने वाला आउटपुट लगभग वैसा ही रहता है और बिल फिर भी चढ़ जाता है। कारण है छिपे हुए "सोच" टोकन: रीज़निंग मॉडल इन्हें उत्पन्न करता है और इन पर शुल्क लेता है, पर इन्हें प्रतिक्रिया में कभी नहीं दिखाता। यह प्रोजेक्ट कुछ प्रतिनिधि कार्यों के एक छोटे समूह पर मापता है कि ये अतिरिक्त टोकन कब अपनी लागत वसूल करते हैं और कब केवल बिल को बढ़ाते हैं।

टीमें इसकी परवाह क्यों करती हैं

मॉडल माइग्रेशन के बाद इंजीनियर तक पहुँचने वाले सवाल सीधे होते हैं: लागत क्यों बदली, लेटेंसी क्यों बदली, थ्रॉटलिंग क्यों बढ़ी? रीज़निंग एफर्ट इन तीनों के नीचे बैठा है। डिफ़ॉल्ट रूप से ऊँचा छोड़ देने पर यह चुपचाप टोकन को उस आंतरिक गणना पर खर्च करता है जो पाठक तक कभी नहीं पहुँचती — पे-ऐज़-यू-गो पर असली पैसा, और प्रोविज़ंड क्षमता पर बहुमूल्य गुंजाइश। एफर्ट वास्तव में कहाँ उत्तर बदलता है, यह जानना ही एक भरोसेमंद रोलआउट और बिल पर अचानक चौंकाने वाले झटके के बीच का अंतर है।

हमने क्या परखा

हमने प्रॉम्प्ट और वर्कलोड स्लाइस स्थिर रखकर हर स्लाइस पर वही रीज़निंग-एफर्ट सीढ़ी चलाई — छोटे तथ्यात्मक उत्तर, संरचित डेटा से प्राकृतिक भाषा में रूपांतरण, बहु-चरणीय रीज़निंग, और टूल का उपयोग करने वाले एजेंट — और हर कॉल पर पूरा उपयोग विवरण दर्ज किया: इनपुट, कैश, रीज़निंग और आउटपुट टोकन, साथ ही गुणवत्ता संकेत और लेटेंसी। इस मापे गए टोकन-स्वरूप के ऊपर हमने एक मॉडल-आधारित दृष्टि जोड़ी कि वही वर्कलोड पे-ऐज़-यू-गो (PAYG) बनाम प्रोविज़ंड थ्रूपुट (PTU) पर कैसे मूल्यांकित होगा।

साक्ष्य ने क्या दिखाया

परिणाम वैसे ही बँटे जैसे अच्छे साक्ष्य को बँटना चाहिए — कुछ जगह एफर्ट ने अपनी कीमत वसूली, कुछ जगह उसने केवल छिपी गणना खरीदी। चार सीख सभी स्लाइस में लागू होती हैं।

रीज़निंग टोकन हमेशा मापें

इन पर शुल्क लगता है पर ये लौटाए नहीं जाते। हर कॉल पर पूरा उपयोग विवरण दर्ज करें—इनपुट, कैश, रीज़निंग और आउटपुट।

हर कार्य को रीज़निंग की ज़रूरत नहीं

छोटे तथ्यात्मक उत्तर, संरचित डेटा से प्राकृतिक भाषा में रूपांतरण, और सरल वर्गीकरण में अक्सर लागत बढ़ी पर उसके साथ गुणवत्ता नहीं बढ़ी।

एफर्ट प्रमुख लागत-नियंत्रक है

रीज़निंग-एफर्ट नॉब को डिफ़ॉल्ट रूप से सबसे निचले स्तर पर रखें और तभी बढ़ाएँ जब गुणवत्ता मूल्यांकन इस खर्च को उचित ठहराए।

बिलिंग मॉडल फ़ायदे को बदल देता है

पे-ऐज़-यू-गो (PAYG) पर, रीज़निंग टोकन घटाने से बिल कम होता है। प्रोविज़ंड थ्रूपुट (PTU) पर, वही कटौती निश्चित बिल पर थ्रूपुट लाभ बन जाती है।

यह किसके लिए है

उन इंजीनियरों और आर्किटेक्ट्स के लिए जो Azure OpenAI परिनियोजन चलाते हैं और यह तय कर रहे हैं कि रीज़निंग सक्षम करें या नहीं (और कितनी), क्षमता का आकलन कर रहे हैं, या मॉडल माइग्रेशन के बाद लागत, लेटेंसी या थ्रॉटलिंग में बदलाव डीबग कर रहे हैं।

आगे क्या पढ़ें

अवलोकन निबंध पढ़ें

निर्देशित कहानी: एफर्ट कहाँ खर्च बर्बाद करता है, कहाँ आज़माने लायक है, और छिपे टोकन को स्पष्ट रूप से बजट में क्यों रखना चाहिए। पढ़ना शुरू करें →

लेख-केंद्र देखें

पूरा पठन-क्रम — साक्ष्य विषय, सेतु निबंध, और रिकवरी, कैशिंग व साइज़िंग पर परिचालन नोट्स। केंद्र खोलें →

साक्ष्य डैशबोर्ड देखें

ऑडिट-निशान: हर दावे के पीछे शासित तालिकाएँ और रेंडर किए गए स्रोत चार्ट। डैशबोर्ड खोलें →

पूरी कार्यप्रणाली पढ़ें

निर्णय ढाँचा और ऑपरेटर मार्गदर्शन रिपॉज़िटरी दस्तावेज़ में हैं। GitHub पर देखें →

शब्दावली

Foundry
Azure AI Foundry — इस प्रोजेक्ट में मापे गए मॉडल को डिप्लॉय और सर्व करने वाला प्रबंधित प्लेटफ़ॉर्म।
PTU
प्रोविज़ंड थ्रूपुट यूनिट — टोकन के बजाय थ्रूपुट के लिए भुगतान वाली आरक्षित, निश्चित-क्षमता बिलिंग।
PAYG
पे-ऐज़-यू-गो — इनपुट, कैश, रीज़निंग और आउटपुट टोकन के अनुसार लिया जाने वाला उपयोग-आधारित बिलिंग।
रीज़निंग टोकन
आंतरिक "सोच" टोकन जिन्हें रीज़निंग मॉडल बनाता और बिल करता है पर प्रतिक्रिया में कभी नहीं लौटाता।
कैश
प्रॉम्प्ट कैश — पहले संसाधित प्रॉम्प्ट उपसर्गों का पुन: उपयोग, कम कैश-इनपुट दर पर बिल किया जाता है।
429
HTTP 429 Too Many Requests — जब कोई डिप्लॉयमेंट अपनी दर या क्षमता सीमा पार करता है तब लौटाई जाने वाली थ्रॉटलिंग प्रतिक्रिया।