नक्कल काढणे: एक तांत्रिक आढावा
EdTech प्लॅटफॉर्म म्हणून, Embibe क्युरेट करते आणि शिकण्याच्या वस्तूंचा एक प्रचंड साठा व्यवस्थापित करते जो विद्यार्थ्यांना त्यांच्या शिकण्याची आवश्यकता पूर्ण करण्यासाठी दिला जाऊ शकतो. वापरकर्त्यास कोणत्याही शैक्षणिक संकल्पनेमध्ये शिक्षित करण्यासाठी मुख्यतः व्हिडिओ, स्पष्टीकरणे, परस्परसंवादी शिक्षण घटक असतात. तसेच, यात काही प्रश्न आहेत जे खेळीमेळीतून प्रॅक्टिस आणि टेस्टचा अनुभव प्रदान करण्यासाठी एकत्र केले जाऊ शकतात. Embibe येथे, प्रॅक्टिस आणि टेस्ट कथानक अंतर्गत वापरकर्ता प्रतिबद्धता आपल्याला महत्त्वपूर्ण शैक्षणिक, वर्तनात्मक, टेस्ट देण्याची, टेस्ट-पातळी आणि यूजर प्रयत्न-संबंधित निर्दिष्ट करते जे यूजरला या जर्नीमध्ये मदत करते आणि विद्यार्थ्यांना त्यांची कमाल क्षमता अनलॉक करण्यात मदत करते. प्रॅक्टिस आणि टेस्ट वैशिष्ट्यांना महत्त्व दिल्यानंतर, आम्ही जास्तीत जास्त यूजर प्रतिबद्धता आणि विश्वास प्राप्त करण्यामध्ये विश्वास ठेवतो.
असे विविध स्त्रोत आहेत ज्याद्वारे प्रश्नांचा साठा तयार केला जातो – या प्रक्रियेत अंतर्गत शिक्षक आणि विषयातील तज्ञ, शैक्षणिक तज्ञ आणि इतर अनेक कर्मचारी गुंतलेले आहेत. साठयामध्ये प्रख्यात पाठ्यपुस्तके आणि संदर्भ सामग्रीचे प्रश्न देखील असतात. सामग्री साठा चालविण्याच्या अनेक घटकांचा सहभाग आणि सहभाग चालविण्याच्या सामग्रीचे महत्त्व, सामग्री गुणवत्तेचा मागोवा ठेवणे आवश्यक आहे. मोठ्या प्रमाणामध्ये सामग्री नक्कल, प्रश्न योग्यता समस्या, अपूर्ण प्रश्न, चुकीचे मेटा टॅगिंग, काही अशा काही समस्या आहेत. या लेखात, आम्ही सामग्री नक्कल समस्येवर चर्चा करणार आहोत आणि Embibe मध्ये ते टाळण्यासाठी वापरल्या जाणाऱ्या बुद्धिमत्ता प्रणालीवर चर्चा करणार आहोत.
सामग्री नक्कल आणि त्याचे निवारण
सिस्टममधील सामग्री नक्कल (परीक्षा/प्रॅक्टिस उदाहरणे /प्रश्न) हे यूजरला प्रतिबद्धतेच्या प्रतिकूल परिणाम करणाऱ्या अनेक समस्यांपैकी एक आहे. हे अधिक उत्तम समजण्यासाठी, Facebook किंवा Instagram द्वारे यूजर स्क्रोल करत असताना एकच व्हिडिओ किंवा इमेज परत परत प्रदर्शित होण्यासोबत याची तुलना केली जाऊ शकते, यामुळे यूजर प्रतिबद्धतेवर परिणाम होतो आणि सर्वात वाईट म्हणजे यूजर कायमचा प्लॅटफॉर्म बाहेर जाऊ शकतो. त्याचप्रमाणे, विद्यार्थ्यांना एका टेस्ट मध्ये किंवा प्रॅक्टिस सत्रामध्ये समान प्रश्न सादर केला गेला तर ते निश्चितपणे यूजर ड्रॉप-ऑफ होण्यामध्ये योगदान देईल.
या समस्येचे निरसन करण्यासाठी, आम्ही एक हायब्रिड दृष्टीकोन तयार केला आहे जो वाक्यांश (एडिट-अंतर) आधारित उपाय आणि डिप लर्निंग-आधारित (रेसनेट -18 कॉनव्होल्युशनल न्यूरल नेटवर्क आर्किटेक्चर) घनदाट सदिश समानता एकत्रित करते. आम्ही पूर्ण-मजकूर क्वेरीसारख्या एलिस्टिकर्स (लुसीन) कोर कार्यक्षमतेचा वापर करतो आणि अल्कुप्लिकेशन पाइपलाइनची अंमलबजावणी करण्यासाठी अलीकडील स्क्रिप्ट स्कोअर क्वेरी वापरतो. आमचे शिक्षण उद्देश (प्रश्न) मजकूर (प्रश्न, उत्तर मजकूर) तसेच इमेज / चित्रमय माहिती (आकडेवारी, आकृती इत्यादी), आणि पाइपलाइन सामग्री साठयामधून अचूक नक्कल समूहाची ओळख पटवतात. आम्ही प्रणालीमध्ये नक्कल प्रश्नांची निर्मिती आणि मिसळणे टाळण्यासाठी त्याच दृष्टीकोनातून लपवून ठेवलेल्या रिअल-टाइम उपयुक्तता सक्षम केली आहे; हे नकलेसाठी लक्ष ठेवण्यासारखे कार्य करते. मजकूराचे अर्थपूर्ण समानता ज्ञान जागरूक मॉडेल वापरून वाढविली जाऊ शकते आणि डिप लर्निंग मॉडेलमधून स्पष्ट माहिती मिळविली जाऊ शकते[1][2]. स्पष्टीकरण करण्यायोग्य मॉडेल शैक्षणिक विषयावर मॉडेलच्या परिणामांवर अवलंबून असू शकतात [3].
आम्ही खाली दर्शविलेल्या डेटा प्रवाह आकृतीद्वारे या पाइपलाइनचा सारांश करण्याचा प्रयत्न करतो:
थ्रेशहोल्ड निवड:
सामग्रीच्या डुप्लिकेशन पाइपलाइनसाठी, थ्रेशोल्ड निवड / ट्यूनिंग समस्येच्या मुळामध्ये आहे. हे डुप्लिकेटमधील समान आणि नॉन-डुप्लिकेट प्रश्नांना वेगळे करण्यास मदत करते. येथे, योग्य थ्रेशहोल्ड ओळखण्यासाठी, आम्ही विषयावरील तज्ञांना लेबल डेटासेट तयार करण्यास मदत केली आहे, जिथे त्यांना अँकर प्रश्न आणि उमेदवारांची यादी दिली गेली आहे. त्यांना जोडप्यांना डुप्लिकेट म्हणून चिन्हांकित करण्यास सांगितले गेले आहे किंवा डुप्लिकेट-नाही म्हणून चिन्हांकित केले गेले. उमेदवार जनरेशनसाठी, प्रतिमा घनदाट व्हेक्टरवर इलासतिसेरसश पूर्ण-मजकूर क्वेरी आणि स्क्रिप्ट स्कोअर क्वेरी वापरून सामग्रीच्या साठयामधून टॉप के उमेदवार निवडले गेले.
आता, योग्य थ्रेशोल्ड व्हॅल्यू निवडण्यासाठी, विविध थ्रेशोल्ड व्हॅल्यूज (रेंज: 0.5 ते 1.0, चरण: 0.05) वर एक ग्रिड शोध कार्यरत होता. अँकर प्रश्नांसाठी टॉप के उमेदवार व्युत्पन्न करण्यात आले आणि अचूकतेची संख्या वेगवेगळ्या थ्रेशहोल्ड मूल्यावर ताब्यात घेण्यात आली. समानता स्कोअर थ्रेशहोल्ड जे अंतिम थ्रेशोल्ड मूल्य म्हणून जास्तीत जास्त अचूक निवडली गेली.
बेंचमार्किंग प्रक्रिया
लेबल-आउट लेबल सेट विरूद्ध, उल्लेख केलेल्या बेंचमार्किंगची ओळख प्रक्रिया केली गेली आहे. खालील सारणी स्पष्ट करते:
माहिती | संच आकार | अचूकता (योग्य खूण केलेले) |
लेबल प्रश्न जोडणारे: फक्त मजकूर, मजकूर + इमेज, केवळ प्रतिमा | 5114 | 83.1% (4250) |
लेबल प्रश्न जोडणारे: मजकूर + प्रतिमा, फक्त इमेज | 2710 | 80.1% (2193) |
निष्कर्ष आणि भविष्यातील काम
अनेक मशीन लर्निंग कार्यांमध्ये 80% + अचूकताही पुरेशी असू शकते, परंतु Embibe ज्या प्रमाणात कार्यरत आहे ते मान्यताप्राप्त मॉडेलना मॅन्युअल सत्यापन कमी करण्यासाठी अधिक अचूक मॉडेल आवश्यक असतात. अर्थसंकल्पीय समानता आधारित मजकूर छाननी मध्ये सध्याच्या विकासासह, Embibe एक घन वेक्टर (इमेज आणि मजकूर एम्बेडिंग) विकसित करीत आहे सामग्री समानता आधारित अल्गोरिदम 90% + अचूकतेसह.
संदर्भ
[1] फाल्दु, कीर, अमित शेठ, प्रशांत किकानी, आणि हेमांग अकबारी. “KI-BERT: Infusing Knowledge Context for Better Language and Domain Understanding.” arXiv preprint arXiv:2104.08145 (2021).
[2] गौर, मानस, कीर फाल्दु आणि अमित शेथ. “Semantics of the Black-Box: Can knowledge graphs help make deep learning systems more interpretable and explainable?.” IEEE Internet Computing 25, no. 1 (2021): 51-59.
[3] गौर, मानस, अंकित देसाई, कीर फाल्डु आणि अमित शेथ. “Explainable AI Using Knowledge Graphs.” In ACM CoDS-COMAD Conference. 2020.