वही टोकन मूल्य, अलग बिल

कोई टीम किसी वर्कलोड को रीज़निंग मॉडल पर ले जाती है, पहले जैसा ही प्रति-टोकन मूल्य देखती है, और एक नया डायल पाती है: रीज़निंग एफर्ट। उसे बढ़ाना लगभग मुफ़्त-सा लगता है — तो फिर हर जगह बेहतर उत्तर क्यों न खरीदें? लेकिन दिखने वाला आउटपुट लगभग वैसा ही रहता है और बिल फिर भी चढ़ जाता है। कारण है छिपे हुए "सोच" टोकन: रीज़निंग मॉडल इन्हें उत्पन्न करता है और इन पर शुल्क लेता है, पर इन्हें प्रतिक्रिया में कभी नहीं दिखाता। यह प्रोजेक्ट कुछ प्रतिनिधि कार्यों के एक छोटे समूह पर मापता है कि ये अतिरिक्त टोकन कब अपनी लागत वसूल करते हैं और कब केवल बिल को बढ़ाते हैं।

टीमें इसकी परवाह क्यों करती हैं

मॉडल माइग्रेशन के बाद इंजीनियर तक पहुँचने वाले सवाल सीधे होते हैं: लागत क्यों बदली, लेटेंसी क्यों बदली, थ्रॉटलिंग क्यों बढ़ी? रीज़निंग एफर्ट इन तीनों के नीचे बैठा है। डिफ़ॉल्ट रूप से ऊँचा छोड़ देने पर यह चुपचाप टोकन को उस आंतरिक गणना पर खर्च करता है जो पाठक तक कभी नहीं पहुँचती — पे-ऐज़-यू-गो पर असली पैसा, और प्रोविज़ंड क्षमता पर बहुमूल्य गुंजाइश। एफर्ट वास्तव में कहाँ उत्तर बदलता है, यह जानना ही एक भरोसेमंद रोलआउट और बिल पर अचानक चौंकाने वाले झटके के बीच का अंतर है।

हमने क्या परखा

हमने प्रॉम्प्ट और वर्कलोड स्लाइस स्थिर रखकर हर स्लाइस पर वही रीज़निंग-एफर्ट सीढ़ी चलाई — छोटे तथ्यात्मक उत्तर, संरचित डेटा से प्राकृतिक भाषा में रूपांतरण, बहु-चरणीय रीज़निंग, और टूल का उपयोग करने वाले एजेंट — और हर कॉल पर पूरा उपयोग विवरण दर्ज किया: इनपुट, कैश, रीज़निंग और आउटपुट टोकन, साथ ही गुणवत्ता संकेत और लेटेंसी। इस मापे गए टोकन-स्वरूप के ऊपर हमने एक मॉडल-आधारित दृष्टि जोड़ी कि वही वर्कलोड पे-ऐज़-यू-गो (PAYG) बनाम प्रोविज़ंड थ्रूपुट (PTU) पर कैसे मूल्यांकित होगा।

साक्ष्य ने क्या दिखाया

परिणाम वैसे ही बँटे जैसे अच्छे साक्ष्य को बँटना चाहिए — कुछ जगह एफर्ट ने अपनी कीमत वसूली, कुछ जगह उसने केवल छिपी गणना खरीदी। चार सीख सभी स्लाइस में लागू होती हैं।

रीज़निंग टोकन हमेशा मापें

इन पर शुल्क लगता है पर ये लौटाए नहीं जाते। हर कॉल पर पूरा उपयोग विवरण दर्ज करें—इनपुट, कैश, रीज़निंग और आउटपुट।

हर कार्य को रीज़निंग की ज़रूरत नहीं

छोटे तथ्यात्मक उत्तर, संरचित डेटा से प्राकृतिक भाषा में रूपांतरण, और सरल वर्गीकरण में अक्सर लागत बढ़ी पर उसके साथ गुणवत्ता नहीं बढ़ी।

एफर्ट प्रमुख लागत-नियंत्रक है

रीज़निंग-एफर्ट नॉब को डिफ़ॉल्ट रूप से सबसे निचले स्तर पर रखें और तभी बढ़ाएँ जब गुणवत्ता मूल्यांकन इस खर्च को उचित ठहराए।

बिलिंग मॉडल फ़ायदे को बदल देता है

पे-ऐज़-यू-गो (PAYG) पर, रीज़निंग टोकन घटाने से बिल कम होता है। प्रोविज़ंड थ्रूपुट (PTU) पर, वही कटौती निश्चित बिल पर थ्रूपुट लाभ बन जाती है।

यह किसके लिए है

उन इंजीनियरों और आर्किटेक्ट्स के लिए जो Azure OpenAI परिनियोजन चलाते हैं और यह तय कर रहे हैं कि रीज़निंग सक्षम करें या नहीं (और कितनी), क्षमता का आकलन कर रहे हैं, या मॉडल माइग्रेशन के बाद लागत, लेटेंसी या थ्रॉटलिंग में बदलाव डीबग कर रहे हैं।

यह कोई उत्पाद नहीं, शोध सामग्री है। कोई होस्टेड सेवा नहीं है और कोई SLA नहीं। यह रिपॉज़िटरी केवल पुनरुत्पाद्य बेंचमार्क, कार्यप्रणाली, निर्णय उपकरण और सैनिटाइज़्ड परिणाम-अंश प्रकाशित करती है।

आगे क्या पढ़ें

अवलोकन निबंध पढ़ें

निर्देशित कहानी: एफर्ट कहाँ खर्च बर्बाद करता है, कहाँ आज़माने लायक है, और छिपे टोकन को स्पष्ट रूप से बजट में क्यों रखना चाहिए। पढ़ना शुरू करें →

लेख-केंद्र देखें

पूरा पठन-क्रम — साक्ष्य विषय, सेतु निबंध, और रिकवरी, कैशिंग व साइज़िंग पर परिचालन नोट्स। केंद्र खोलें →

साक्ष्य डैशबोर्ड देखें

ऑडिट-निशान: हर दावे के पीछे शासित तालिकाएँ और रेंडर किए गए स्रोत चार्ट। डैशबोर्ड खोलें →

पूरी कार्यप्रणाली पढ़ें

निर्णय ढाँचा और ऑपरेटर मार्गदर्शन रिपॉज़िटरी दस्तावेज़ में हैं। GitHub पर देखें →

शब्दावली

Foundry: Azure AI Foundry — इस प्रोजेक्ट में मापे गए मॉडल को डिप्लॉय और सर्व करने वाला प्रबंधित प्लेटफ़ॉर्म।
PTU: प्रोविज़ंड थ्रूपुट यूनिट — टोकन के बजाय थ्रूपुट के लिए भुगतान वाली आरक्षित, निश्चित-क्षमता बिलिंग।
PAYG: पे-ऐज़-यू-गो — इनपुट, कैश, रीज़निंग और आउटपुट टोकन के अनुसार लिया जाने वाला उपयोग-आधारित बिलिंग।
रीज़निंग टोकन: आंतरिक "सोच" टोकन जिन्हें रीज़निंग मॉडल बनाता और बिल करता है पर प्रतिक्रिया में कभी नहीं लौटाता।
कैश: प्रॉम्प्ट कैश — पहले संसाधित प्रॉम्प्ट उपसर्गों का पुन: उपयोग, कम कैश-इनपुट दर पर बिल किया जाता है।
429: HTTP 429 Too Many Requests — जब कोई डिप्लॉयमेंट अपनी दर या क्षमता सीमा पार करता है तब लौटाई जाने वाली थ्रॉटलिंग प्रतिक्रिया।