प्रश्नांमध्ये फरक दर्शवणारे घटक
लक्ष्यित लर्निंग आऊटकम मधील कामगिरीचे मूल्यमापन करण्यासाठी विद्यार्थ्यांच्या सर्वात जास्त पसंतीचे मुल्यांकन तंत्र आहे टेस्ट. म्हणून, विद्यार्थ्यांची शैक्षणिक कमतरता जाणून घेण्यासाठी आणि शिक्षणास प्रोत्साहन देण्यासाठी टेस्ट निष्पक्ष आणि प्रभावी असल्या पाहिजेत. हा हेतू पूर्ण करण्याची टेस्टची क्षमता टेस्टमध्ये विचारलेला प्रत्येक प्रश्न किती योग्य आहे यावरच अवलंबून असते. म्हणून, मुद्द्यांचे विश्लेषण करून चाचणीची विश्वासार्हता वाढवली जाऊ शकते, ज्यासाठी प्रत्येक प्रश्न किंवा मुद्द्यावर विद्यार्थ्याच्या प्रतिक्रियेचा वापर करून चाचणीमधील कामगिरीचे मुल्यांकन केले जाते. मुद्द्यांच्या विश्लेषणामधील एक महत्वाची पद्धत आहे मुद्द्यांमधील फरक ओळखणे म्हणजेच वेगवेगळ्या विद्यार्थ्यांमध्ये फरक करण्याचे प्रश्नाचे सामर्थ्य. प्रश्नांमध्ये फरक दर्शवणारे घटक म्हणजे असा निर्देशांक जो एखादा प्रश्न वापरकर्त्यांच्या विविध समूहामध्ये किती चांगल्याप्रकारे फरक करू शकतो याचे मुल्यांकन करणारा घटक. हा दर्शवतो की कशाप्रकारे हुशार नसलेल्या विद्यार्थ्यांच्या तुलनेत हुशार विद्यार्थी या प्रश्नांचे उत्तर बरोबर देण्याची शक्यता अधिक आहे.
एखाद्या प्रश्नासाठी प्रश्नामध्ये फरक दर्शवणाऱ्या घटकांची गणना करण्यासाठी, Embibe ने पारंपारिक सांख्यिकीय – आयटम पॉइंट बायसिरीयल सहसंबंध आणि डीप लर्निंग वर आधारित पद्धतींचा वापर केला आहे. आयटम पॉइंट बायसिरीयल सहसंबंध म्हणजे प्रश्नाचा स्कोअर आणि विद्यार्थ्याचा एकूण स्कोअर यामधील पिअरसन-प्रोडक्ट सहसंबंध आहे. त्यामुळे ज्या विद्यार्थांनी या प्रश्नाचे उत्तर बरोबर दिले आणि ज्या विद्यार्थ्यांना या प्रश्नाचे चुकीचे उत्तर दिले त्यांच्या एकूण स्कोअरमधील फरक जेवढा जास्त असेत तेवढेच प्रश्नामध्ये फरक दर्शवणाऱ्या घटकांचे मूल्य अधिक असते. तसेच आम्ही डीप न्यूरल नेटवर्क आर्किटेक्चर वापरून क्लासिकल आयटम रिस्पॉन्स थिअरीमधील 2PL मॉडेलदेखील लागू केले. विद्यार्थ्यांनी केलेल्या प्रयत्नांच्या डेटाच्या आधारे, आम्ही प्रश्नांच्या काठिण्याचा स्तर ठरवतो आणि प्रशिक्षित DNN च्या आधारे फरक दर्शवणारा घटक ठरवतो.
QDF = 0.11 | QDF = 0.80 |
प्रश्न 1: कमी रेणूभार असलेले अल्कोहोल a. सर्व द्रावणात विद्राव्य (अचूक पर्याय) b. पाण्यात विरघळणारे c. सर्व द्रावणात न विरघळणारे d. उष्णता दिल्यास पाण्यात विरघळणारे | प्रश्न 2: ॲस्परीनला या नावाने देखील ओळखले जाते a. ॲसिटिल सॅलिसिलिक ॲसिड (अचूक पर्याय) b. मिथाइल सॅलिसिलिक ॲसिड c. ॲसिटिल सॅलिसिलेट d. मिथाइल सॅलिसिलेट |
तक्ता 1: कमी QDF आणि जास्त QDF मुल्यासह बरोबर आणि चुकीच्या उत्तरासाठी एकूण गुणांच्या वितरणामधील तुलना
इथे, x-अक्ष मिळालेले एकूण गुण दर्शवतो आणि y-अक्ष विद्यार्थ्यांची सामान्य संख्या दर्शवतो. पिवळी रेषा ज्या विद्यार्थ्यांचे उत्तर चूक आले आहे अशा विद्यार्थ्यांच्या एकूण गुणांचे वितरण दर्शवते. आणि निळी रेषा ज्या विद्यार्थ्यांचे उत्तर बरोबर आले आहे अशा विद्यार्थ्यांच्या एकूण गुणांचे वितरण दर्शवते. प्रश्न 1 मध्ये, उत्तर बरोबर दिलेल्या विद्यार्थ्यांच्या एकूण गुणांमध्ये जास्त ओव्हरलॅप आहे तर प्रश्न 2 मध्ये, हा ओव्हरलॅप कमी आहे, म्हणजेच प्रश्न 1 च्या तुलनेत प्रश्न 2 साठी प्रश्नामध्ये फरक दर्शवणाऱ्या घटकांचे मूल्य जास्त आहे. शेवटच्या प्रश्नामध्ये फरक दर्शवणाऱ्या घटकाचे मूल्य हे वरील पद्धत आणि चाचणीचे मापदंड यांचा फाईन-ट्यून केलेला परिणाम आहे.
Embibe ने दोन वेगवेगळ्या चाचण्यांमधील विद्यार्थ्याच्या कामगिरीची तुलना करण्यासाठी प्रमाणीकरण प्रयोग केला:
- बेसलाईन धोरण: येथे, कठीणतेचा स्तर आणि पाठ्यक्रम कव्हरेज यांचे अपेक्षित वितरण सुनिश्चित करून, ग्राउंड ट्रूथ डेटाबेसमधून कोणताही पुर्वाग्रह न बाळगता फरक करणारे घटकांनुसार प्रश्न निवडले जातात.
- केवळ फरक करणारे धोरण: येथे, ग्राउंड ट्रूथ डेटासेटमधून प्रश्न निवडताना हे सुनिश्चित केले जाते की पाठ्यक्रम कव्हरेज केले आहे– ज्यामध्ये एका धड्यातून किमान एक प्रश्न तरी विचारला जातो आणि प्रश्नामध्ये फरक करणाऱ्या समग्र घटकांच्या कठीणतेचा स्तर सर्वात जास्त केल्याचे सुनिश्चित केले जाते.
प्रयोगासाठी, 75 प्रश्नांची टेस्ट देण्यासाठी एकूण 312 विद्यार्थी निवडले होते. दोन सांख्यिकीय मेट्रिक्सद्वारे टेस्टमध्ये केलेल्या कामगिरीची तुलना करण्यात आली:
- RMSE वापरून मुल्यांकन: आयटम रिस्पॉन्स थेअरी मॉडेल वापरून, आम्ही मूल्यमापन सेटमध्ये प्रत्येक विद्यार्थ्याद्वारे प्रश्नांची अचूक उत्तरे देण्याची संभाव्यता किती आहे याचे अनुमान काढतो आणि त्यांनी निर्मित चाचणी पेपर दिला असता तर त्यांना किती गुण मिळाले असते याच्या सरासरी क्षमतेची गणना करतो.
- स्पिअरमनचा ρ वापरून मुल्यांकन करणे: येथे, आम्ही ग्राउंड ट्रुथ डेटा आणि निर्मित चाचणी मधून प्राप्त केलेल्या विद्यार्थ्यांच्या क्षमतेचे वर्गीकरण करतो आणि दोन क्रमांकाम्द्धील क्रमांक सहसंबंध ρ निर्धारित करतो.
धोरण | RMSE | क्रमांक सहसंबंध ρ |
बेसलाईन धोरण | 0.844 | 0.59 |
केवळ फरक करणारे धोरण | 0.549 | 0.83 |
तक्ता 2: RMSE (सूचित क्षमता आणि ग्राउंड ट्रुथपासूनची क्षमता) आणि वेगवेगळ्या धोरणाद्वारे निर्मित चाचणीमध्ये प्राप्त क्रमांकामधील सहसंबंध ρ यांची तुलना
तसेच, आम्हाला आढळले की केवळ फरक करणारे धोरण बेसलाईन धोरणापेक्षा गुणांमध्ये 24.8% अधिक व्यापकता देते (विद्यार्थ्यांचे 95 टक्क्यांवरील गुण – 5 टक्क्यांवरील गुण).
म्हणून टेस्टमध्ये प्रश्नामध्ये फरक करणारे घटक उच्च प्रमाणात असल्यास समान लक्ष्यित शैक्षणिक ध्येयांतर्गत विद्यार्थ्यांमध्ये फरक करण्याच्या क्षमतेच्या संदर्भात चाचणीची गुणवत्ता सुधारते. तसेच, जेव्हा आम्हाला नकारात्मक प्रमाणात प्रश्नामध्ये फरक करणारे घटक आढळतात तेव्हा सामग्रीची गुणवत्ता सुधारण्यासाठी आणि त्यांची प्रासंगिकता आणि स्पष्टता सुधारण्यासाठी यांचा वापर केला जातो.
संदर्भ
- सोमा धवला, चिराग भाटीया, जॉय बोस, केयूर फाल्डू, अदिती अवस्थी, “Auto Generation of Diagnostic Assessments and their Quality Evaluation,” जुलै 2020, EDM.
- विन्सेंट लेब्लांक, मायकल ए. ए. कॉक्स, “Interpretation of the point-biserial correlation coefficient in the context of a school examination,” जानेवारी 2017, The Quantitative Methods for Psychology 13(1):46-56
- लिंडेन, डब्ल्यू. डी., आणि आर. हम्बलटन. “Handbook of Modern Item Response Theory.” (1997), Biometrics 54:1680