अवलोकन निबंध पढ़ें
निर्देशित कहानी: एफर्ट कहाँ खर्च बर्बाद करता है, कहाँ आज़माने लायक है, और छिपे टोकन को स्पष्ट रूप से बजट में क्यों रखना चाहिए। पढ़ना शुरू करें →
कोई टीम किसी वर्कलोड को रीज़निंग मॉडल पर ले जाती है, पहले जैसा ही प्रति-टोकन मूल्य देखती है, और एक नया डायल पाती है: रीज़निंग एफर्ट। उसे बढ़ाना लगभग मुफ़्त-सा लगता है — तो फिर हर जगह बेहतर उत्तर क्यों न खरीदें? लेकिन दिखने वाला आउटपुट लगभग वैसा ही रहता है और बिल फिर भी चढ़ जाता है। कारण है छिपे हुए "सोच" टोकन: रीज़निंग मॉडल इन्हें उत्पन्न करता है और इन पर शुल्क लेता है, पर इन्हें प्रतिक्रिया में कभी नहीं दिखाता। यह प्रोजेक्ट कुछ प्रतिनिधि कार्यों के एक छोटे समूह पर मापता है कि ये अतिरिक्त टोकन कब अपनी लागत वसूल करते हैं और कब केवल बिल को बढ़ाते हैं।
मॉडल माइग्रेशन के बाद इंजीनियर तक पहुँचने वाले सवाल सीधे होते हैं: लागत क्यों बदली, लेटेंसी क्यों बदली, थ्रॉटलिंग क्यों बढ़ी? रीज़निंग एफर्ट इन तीनों के नीचे बैठा है। डिफ़ॉल्ट रूप से ऊँचा छोड़ देने पर यह चुपचाप टोकन को उस आंतरिक गणना पर खर्च करता है जो पाठक तक कभी नहीं पहुँचती — पे-ऐज़-यू-गो पर असली पैसा, और प्रोविज़ंड क्षमता पर बहुमूल्य गुंजाइश। एफर्ट वास्तव में कहाँ उत्तर बदलता है, यह जानना ही एक भरोसेमंद रोलआउट और बिल पर अचानक चौंकाने वाले झटके के बीच का अंतर है।
हमने प्रॉम्प्ट और वर्कलोड स्लाइस स्थिर रखकर हर स्लाइस पर वही रीज़निंग-एफर्ट सीढ़ी चलाई — छोटे तथ्यात्मक उत्तर, संरचित डेटा से प्राकृतिक भाषा में रूपांतरण, बहु-चरणीय रीज़निंग, और टूल का उपयोग करने वाले एजेंट — और हर कॉल पर पूरा उपयोग विवरण दर्ज किया: इनपुट, कैश, रीज़निंग और आउटपुट टोकन, साथ ही गुणवत्ता संकेत और लेटेंसी। इस मापे गए टोकन-स्वरूप के ऊपर हमने एक मॉडल-आधारित दृष्टि जोड़ी कि वही वर्कलोड पे-ऐज़-यू-गो (PAYG) बनाम प्रोविज़ंड थ्रूपुट (PTU) पर कैसे मूल्यांकित होगा।
परिणाम वैसे ही बँटे जैसे अच्छे साक्ष्य को बँटना चाहिए — कुछ जगह एफर्ट ने अपनी कीमत वसूली, कुछ जगह उसने केवल छिपी गणना खरीदी। चार सीख सभी स्लाइस में लागू होती हैं।
इन पर शुल्क लगता है पर ये लौटाए नहीं जाते। हर कॉल पर पूरा उपयोग विवरण दर्ज करें—इनपुट, कैश, रीज़निंग और आउटपुट।
छोटे तथ्यात्मक उत्तर, संरचित डेटा से प्राकृतिक भाषा में रूपांतरण, और सरल वर्गीकरण में अक्सर लागत बढ़ी पर उसके साथ गुणवत्ता नहीं बढ़ी।
रीज़निंग-एफर्ट नॉब को डिफ़ॉल्ट रूप से सबसे निचले स्तर पर रखें और तभी बढ़ाएँ जब गुणवत्ता मूल्यांकन इस खर्च को उचित ठहराए।
पे-ऐज़-यू-गो (PAYG) पर, रीज़निंग टोकन घटाने से बिल कम होता है। प्रोविज़ंड थ्रूपुट (PTU) पर, वही कटौती निश्चित बिल पर थ्रूपुट लाभ बन जाती है।
उन इंजीनियरों और आर्किटेक्ट्स के लिए जो Azure OpenAI परिनियोजन चलाते हैं और यह तय कर रहे हैं कि रीज़निंग सक्षम करें या नहीं (और कितनी), क्षमता का आकलन कर रहे हैं, या मॉडल माइग्रेशन के बाद लागत, लेटेंसी या थ्रॉटलिंग में बदलाव डीबग कर रहे हैं।
निर्देशित कहानी: एफर्ट कहाँ खर्च बर्बाद करता है, कहाँ आज़माने लायक है, और छिपे टोकन को स्पष्ट रूप से बजट में क्यों रखना चाहिए। पढ़ना शुरू करें →
पूरा पठन-क्रम — साक्ष्य विषय, सेतु निबंध, और रिकवरी, कैशिंग व साइज़िंग पर परिचालन नोट्स। केंद्र खोलें →
ऑडिट-निशान: हर दावे के पीछे शासित तालिकाएँ और रेंडर किए गए स्रोत चार्ट। डैशबोर्ड खोलें →
निर्णय ढाँचा और ऑपरेटर मार्गदर्शन रिपॉज़िटरी दस्तावेज़ में हैं। GitHub पर देखें →