लीनियर रिग्रेशन बनाम लॉजिस्टिक रिग्रेशन

जॉन पॉल मुलर, लुका मासारोन द्वारा

रैखिक और लॉजिस्टिक प्रतिगमन दोनों डेटा विज्ञान में बहुत अधिक उपयोग देखते हैं लेकिन आमतौर पर विभिन्न प्रकार की समस्याओं के लिए उपयोग किए जाते हैं। डेटा विज्ञान कार्यों की एक पूरी श्रृंखला को करने के लिए आपको दोनों प्रकार के प्रतिगमन को जानने और समझने की आवश्यकता है।



दोनों में से, लॉजिस्टिक रिग्रेशन को कई मायनों में समझना कठिन है क्योंकि यह आवश्यक रूप से अधिक जटिल समीकरण मॉडल का उपयोग करता है। निम्नलिखित जानकारी आपको एक बुनियादी अवलोकन प्रदान करती है कि रैखिक और लॉजिस्टिक प्रतिगमन कैसे भिन्न होता है।



समीकरण मॉडल

रैखिक और लॉजिस्टिक रिग्रेशन के बीच अंतर की कोई भी चर्चा अंतर्निहित समीकरण मॉडल से शुरू होनी चाहिए। रैखिक प्रतिगमन के लिए समीकरण सीधा है।

अम्लोदीपाइन 5 मिलीग्राम टैबलेट
>p

आप इस समीकरण को अन्य रूपों में देख सकते हैं और आप इसे साधारण न्यूनतम वर्ग प्रतिगमन कह सकते हैं, लेकिन आवश्यक अवधारणा हमेशा समान होती है। आपके द्वारा उपयोग किए जाने वाले स्रोत के आधार पर, लॉजिस्टिक रिग्रेशन को व्यक्त करने के लिए उपयोग किए जाने वाले कुछ समीकरण तब तक भयानक हो सकते हैं जब तक कि आप गणित के प्रमुख न हों। हालाँकि, इस चर्चा की शुरुआत लॉजिस्टिक रिग्रेशन के सबसे सरल विचारों में से एक का उपयोग कर सकती है:



a

|_+_|, लॉजिस्टिक फ़ंक्शन के बराबर है,एफ, दो मॉडल मापदंडों पर लागू, |_+_| और |_+_|, और एक व्याख्यात्मक चर, |_+_|। जब आप इस विशेष मॉडल को देखते हैं, तो आप देखते हैं कि यह वास्तव में रैखिक प्रतिगमन मॉडल से अलग नहीं है, सिवाय इसके कि अब आप आवश्यक वक्र प्राप्त करने के लिए लॉजिस्टिक फ़ंक्शन के माध्यम से रैखिक प्रतिगमन के परिणाम को खिलाते हैं।

आउटपुट (आश्रित चर) 0 (नहीं होने वाला) से लेकर 1 (निश्चित रूप से होगा) तक की संभावना है, या एक वर्गीकरण जो कहता है कि कुछ श्रेणी का हिस्सा है या श्रेणी का हिस्सा नहीं है। (आप मल्टीक्लास वर्गीकरण भी कर सकते हैं, लेकिन अभी के लिए बाइनरी प्रतिक्रिया पर ध्यान केंद्रित करें।) रैखिक रिग्रेशन आउटपुट और लॉजिस्टिक रिग्रेशन आउटपुट के बीच अंतर देखने का सबसे अच्छा तरीका यह है कि निम्नलिखित:

फ्लोमैक्स लेने के लिए दिन का सबसे अच्छा समय
  • रैखिक प्रतिगमन निरंतर है। एक सतत मूल्य मूल्यों के एक निर्दिष्ट अंतराल (रेंज) के भीतर कोई भी मूल्य ले सकता है। उदाहरण के लिए, कोई फर्क नहीं पड़ता कि दो व्यक्तियों की ऊंचाई कितनी मेल खाती है, आप हमेशा किसी ऐसे व्यक्ति को ढूंढ सकते हैं जिसकी ऊंचाई उन दो व्यक्तियों के बीच फिट बैठती है। निरंतर मूल्यों के उदाहरणों में शामिल हैं:
    • ऊंचाई
    • वजन
    • कमर का साइज़
  • लॉजिस्टिक रिग्रेशन असतत है। एक असतत मूल्य के विशिष्ट मूल्य होते हैं जिन्हें वह मान सकता है। उदाहरण के लिए, एक अस्पताल एक दिन में केवल एक विशिष्ट संख्या में रोगियों को ही भर्ती कर सकता है। आप आधे मरीज को भर्ती नहीं कर सकते (कम से कम, जीवित नहीं)। असतत मूल्यों के उदाहरणों में शामिल हैं:
    • मेले में लोगों की संख्या
    • जार में जेलीबीन की संख्या
    • एक विक्रेता द्वारा उत्पादित ऑटोमोबाइल के रंग

रसद समारोह

बेशक, अब आपको लॉजिस्टिक फंक्शन के बारे में जानने की जरूरत है। आप इस फ़ंक्शन के कई प्रकार के रूप भी पा सकते हैं, लेकिन यहां समझने में सबसे आसान है:



b

आप पहले से ही |_+_| के बारे में जानते हैं, जो लॉजिस्टिक फ़ंक्शन है, और |_+_| उस एल्गोरिथम के बराबर है जिसका आप उपयोग करना चाहते हैं, जो इस मामले में |_+_|है। वह छोड़ देता है |_+_|, जो कि प्राकृतिक लघुगणक है और चर्चा के लिए इसका अपरिमेय मान 2.718 है ( संपूर्ण मान का बेहतर सन्निकटन देखें ) इस फ़ंक्शन को व्यक्त करने का एक और तरीका है

x

दोनों रूप सही हैं, लेकिन पहले फॉर्म का उपयोग करना आसान है। एक साधारण समस्या पर विचार करें जिसमें |_+_|, y-अवरोध, 0 है, और |_+_|, ढलान, 1 है। उदाहरण |_+_| का उपयोग करता है। -6 से 6 तक के मान। नतीजतन, पहला |_+_| गणना करते समय मान इस तरह दिखेगा (सभी मान गोल हैं):

f

जैसा कि आप उम्मीद कर सकते हैं, एक |_+_|0 के मान के परिणामस्वरूप एक |_+_| 0.5 का मान, और एक |_+_| 6 के मान का परिणाम होगा |_+_| 0.9975 का मान। जाहिर है, एक रैखिक प्रतिगमन ठीक उसी के लिए अलग-अलग परिणाम दिखाएगा |_+_| मूल्य। यदि आप निम्नलिखित कोड का उपयोग करके लॉजिस्टिक और लीनियर रिग्रेशन दोनों से सभी परिणामों की गणना और प्लॉट करते हैं, तो आपको नीचे दिए गए प्लॉट की तरह एक प्लॉट प्राप्त होता है।

x डेटा विज्ञान के लिए डेटा फ़िट करना

लॉजिस्टिक रिग्रेशन के विपरीत रैखिक।

यह उदाहरण निर्भर करता है सूची समझ मानों की गणना करने के लिए क्योंकि यह गणनाओं को स्पष्ट करता है। रेखीय प्रतिगमन एक भिन्न संख्यात्मक श्रेणी का उपयोग करता है क्योंकि आपको तुलना के लिए 0 से 1 श्रेणी में प्रदर्शित होने के लिए मानों को सामान्य करना होगा। यही कारण है कि आप परिकलित मानों को 13 से विभाजित करते हैं। |_+_| लॉजिस्टिक रिग्रेशन के लिए प्रयुक्त कॉल |_+_| की शक्ति के लिए |_+_|, |_+_|, जैसा कि लॉजिस्टिक फ़ंक्शन के लिए आवश्यक है।

यहां चर्चा किए गए मॉडल को सरल बनाया गया है, और कुछ गणित प्रमुख शायद अभी सबसे गहरा अनुपात का गुस्सा तंत्र फेंक रहे हैं। आपके द्वारा उपयोग किया जाने वाला पायथन या आर पैकेज वास्तव में पृष्ठभूमि में गणित का ख्याल रखेगा, इसलिए वास्तव में, आपको यह जानने की जरूरत है कि गणित बुनियादी स्तर पर कैसे काम करता है ताकि आप समझ सकें पैकेज का उपयोग कैसे करें . यह खंड प्रदान करता है कि आपको संकुल का उपयोग करने के लिए क्या चाहिए। हालाँकि, यदि आप गणना को पुराने तरीके से करने पर जोर देते हैं, तो चाक से चॉकबोर्ड तक, आपको बहुत अधिक जानकारी की आवश्यकता होगी।

एल-थीनाइन खुराक

लॉजिस्टिक रिग्रेशन हल करने वाली समस्याएं

आप लॉजिस्टिक रिग्रेशन को कई श्रेणियों में अलग कर सकते हैं। पहला सरल लॉजिस्टिक रिग्रेशन है, जिसमें आपके पास एक आश्रित चर और एक स्वतंत्र चर होता है, जैसा कि आप साधारण रैखिक प्रतिगमन में देखते हैं। हालाँकि, आप लॉजिस्टिक रिग्रेशन की गणना कैसे करते हैं, आप केवल दो प्रकार के आउटपुट की उम्मीद कर सकते हैं:

  • वर्गीकरण: दो उपलब्ध परिणामों के बीच निर्णय लेता है, जैसे पुरुष या महिला, हां या नहीं, या उच्च या निम्न। परिणाम इस बात पर निर्भर करता है कि कोई विशेष डेटा बिंदु रेखा के किस तरफ पड़ता है।
  • संभावना: कुछ सही या गलत होने की प्रायिकता निर्धारित करता है। सत्य और असत्य के विशिष्ट अर्थ हो सकते हैं। उदाहरण के लिए, आप एक डिब्बे में पीले और लाल सेब की उपस्थिति के आधार पर किसी विशेष सेब के पीले या लाल होने की प्रायिकता जानना चाहेंगे।

वक्र फिट करें

लीनियर और लॉजिस्टिक रिग्रेशन के बीच अंतर को समझने के हिस्से के रूप में, इस ग्रेड प्रेडिक्शन प्रॉब्लम पर विचार करें, जो खुद को लीनियर रिग्रेशन के लिए अच्छी तरह से उधार देती है। निम्नलिखित कोड में, आप उस डेटा के साथ लॉजिस्टिक रिग्रेशन का उपयोग करने के प्रयास का प्रभाव देखते हैं:

a + bx

उदाहरण में कुछ बदलाव किए गए हैं जिससे यह देखना आसान हो जाता है कि क्या हो रहा है। यह उसी डेटा पर निर्भर करता है जिसे परीक्षा में सही उत्तर दिए गए प्रश्नों से प्रतिशत में परिवर्तित किया गया था। यदि आपके पास 100 प्रश्न हैं और आप उनमें से 25 का सही उत्तर देते हैं, तो आपने उनमें से 25 प्रतिशत (0.25) का सही उत्तर दिया है। मानों को 0 और 1 प्रतिशत के बीच मान उत्पन्न करने के लिए सामान्यीकृत किया जाता है।

रैखिक बनाम रसद प्रतिगमन

डेटा फिट करने के दृष्टिकोण को ध्यान में रखते हुए।

जैसा कि आप ऊपर की छवि से देख सकते हैं, रैखिक प्रतिगमन डेटा बिंदुओं का बारीकी से अनुसरण करता है। लॉजिस्टिक रिग्रेशन नहीं करता है। हालाँकि, लॉजिस्टिक रिग्रेशन अक्सर सही विकल्प होता है जब डेटा पॉइंट स्वाभाविक रूप से लॉजिस्टिक कर्व का अनुसरण करते हैं, जो आपके विचार से कहीं अधिक बार होता है। आपको उस तकनीक का उपयोग करना चाहिए जो आपके डेटा के लिए सबसे उपयुक्त हो, जिसका अर्थ है इस मामले में रैखिक प्रतिगमन का उपयोग करना।

एक पास/असफल उदाहरण

याद रखने की एक आवश्यक बात यह है कि संभाव्यता और वर्गीकरण के लिए लॉजिस्टिक रिग्रेशन सबसे अच्छा काम करता है। इस बात पर विचार करें कि परीक्षा के बिंदु अंततः पाठ्यक्रम में उत्तीर्ण या असफल होने की भविष्यवाणी करते हैं। यदि आपको उत्तर का एक निश्चित प्रतिशत सही मिलता है, तो आप उत्तीर्ण हो जाते हैं, लेकिन आप अन्यथा असफल हो जाते हैं। निम्न कोड ऊपर दिए गए उदाहरण के लिए उपयोग किए गए समान डेटा पर विचार करता है, लेकिन इसे पास/असफल सूची में बदल देता है। जब कोई छात्र कम से कम 70 प्रतिशत प्रश्न सही कर लेता है, तो सफलता निश्चित है।

जेड-पाक डायरिया
e

यह एक उदाहरण है कि आप एक आवश्यक डेटासेट या डेटा परिवर्तन प्राप्त करने के लिए पायथन में सूची समझ का उपयोग कैसे कर सकते हैं। |_+_| . के लिए सूची समझ निरंतर डेटा के साथ शुरू होता है |_+_| और इसे असतत डेटा में बदल देता है। ध्यान दें कि उदाहरण ठीक उसी समीकरण का उपयोग करता है जो पहले था। जैसा कि आप नीचे देख सकते हैं, वह सब बदल गया है जिस तरह से आप डेटा देखते हैं।

लॉजिस्टिक रिग्रेशन के विपरीत रैखिक।

डेटा में परिवर्तन के कारण, रैखिक प्रतिगमन अब चुनने का विकल्प नहीं है। इसके बजाय, आप डेटा को फ़िट करने के लिए लॉजिस्टिक रिग्रेशन का उपयोग करते हैं। ध्यान रखें कि इस उदाहरण ने वास्तव में परिणामों को अनुकूलित करने के लिए किसी प्रकार का विश्लेषण नहीं किया है। यदि आप ऐसा करते हैं तो लॉजिस्टिक रिग्रेशन डेटा को और भी बेहतर तरीके से फिट करता है।

दिलचस्प लेख