डिडुप्लीकेशन : एक तकनीकी अवलोकन

डिडुप्लीकेशन : एक तकनीकी अवलोकन

एक एडटेक प्लेटफॉर्म के रूप में Embibe, लर्निंग कॉन्टेंट के विशाल संग्रह को व्यवस्थित और प्रबंधित करता है ताकि, विद्यार्थियों की पढ़ाई या सीखने के मार्ग में आने वाली बाधाओं को दूर किया जा सके। विद्यार्थी को शिक्षित करने के लिए, मुख्य रूप से किसी भी एकेडमिक कॉन्सेप्ट के साथ-साथ वीडियो, एक्सप्लेनर, इंटरैक्टिव लर्निंग एलिमेंट जैसे कॉन्टेंट शामिल किए जाते हैं। इसमें ऐसे प्रश्न भी होते हैं जिन्हें गेमीफाइड प्रैक्टिस और टेस्ट अनुभव प्रदान करने के लिए बुद्धिमत्तापूर्वक जोड़ा जा सकता है। Embibe, प्रैक्टिस और टेस्ट के माध्यम से यूज़र के अकादमिक, व्यवहारिक, टेस्ट देने की क्षमता, टेस्ट का स्तर और उसके प्रयासों के बारे में जानकारी प्रदान करता है। यह, विद्यार्थी की सीखने की यात्रा और उसकी क्षमताओं को उच्चतम स्तर पर ले जाने में मदद करता है। हम, प्रैक्टिस और टेस्ट को बेहद महत्वपूर्ण मानते हैं क्योंकि इसकी मदद से  न सिर्फ़ यूजर का ध्यान खींचा जा सकता है बल्कि, उसे लंबे समय तक बनाए रखा जा सकता है।

प्रश्नों का संग्रह बनाते समय विभिन्न स्रोतों का इस्तेमाल किया जाता है। इस प्रक्रिया में, हमारे अध्यापक, विषय विशेषज्ञ, अकादमिक सलाहकार सहित अन्य लोग भी शामिल होते हैं। हमारे संग्रह में महत्वपूर्ण पाठ्य पुस्तकों और संदर्भ सामग्री से जुड़े प्रश्नों को भी शामिल किया जाता है। कॉन्टेंट को व्यवस्थित करने की प्रक्रिया में उसकी गुणवत्ता से संबंधित विषयों पर ध्यान देना आवश्यक हो जाता है। जैसे कि कॉन्टेंट डुप्लीकेशन यानी नकली कॉन्टेंट से बचाव, प्रश्नों की सटीकता, अपूर्ण प्रश्न, त्रुटिपूर्ण मेटा टैगिंग इत्यादि। इस लेख में बताया गया है कि Embibe किस तरह से नकली कॉन्टेंट और उससे बचने वाली कुशल प्रणाली का इस्तेमाल करता है।

नकली कॉन्टेंट से बचने के उपाय

सिस्टम में कॉन्टेंट डुप्लीकेशन (टेस्ट/प्रैक्टिस प्रॉब्लम/प्रश्न) उन मुद्दों में से एक है, जो यूजर इंगेजमेंट पर प्रतिकूल प्रभाव डालता है। बेहतर समझ के लिए, इसकी तुलना ‘फेसबुक’ या ‘इंस्टाग्राम’ द्वारा एक ही वीडियो/इमेज को बार-बार दिखाए जाने से की जा सकती है। जब कोई यूजर, स्क्रॉल करने में व्यस्त होता है; तो यकीन मानिए, कंटेंट डुप्लीकेशन का नकारात्मक असर यूजर इंगेजमेंट पर पड़ता है। इसका नतीजा होता है कि यूजर हमेशा के लिए प्लेटफॉर्म छोड़कर चला जाता है। इसी प्रकार, यदि प्रैक्टिस या टेस्ट सत्र के दौरान विद्यार्थी को एक ही प्रश्न बार-बार दिखता है तो, यह निश्चित रूप से यूजर ड्राप ऑफ को बढ़ाता है।

Embibe ने इन समस्याओं से निपटने के लिए एक हाइब्रिड एप्रोच अपनाया है। इसमें सिंटेक्स (एडिट-डिस्टेंस) आधारित उपायों और डीप लर्निंग-आधारित (ResNet-18 कन्वेन्शनल न्यूरल नेटवर्क आर्किटेक्चर) डेन्स वेक्टर समानताओं को शामिल किया गया है ताकि, डुप्लीकेट या नकली प्रश्नों की पहचान की जा सके। हम पाठ्य सामग्री पर फुल-टेक्स्ट क्वेरीज़ जैसी इलास्टिक्सर्च (लुसीन) की मुख्य कार्यक्षमताओं और डुप्लीकेशन पाइपलाइन को अनुप्रयुक्त करने के लिए डेंस वेक्टर फील्ड्स पर रीसेंट स्क्रिप्ट स्कोर क्वेरीज़ का उपयोग करते हैं। हमारे लर्निंग ऑब्जेक्ट (प्रश्न) में टेक्सटुअल (प्रश्न टेक्स्ट, उत्तर टेक्स्ट) के साथ-साथ इमेज/पिक्टोरियल इन्फॉर्मेशन (आंकड़े, आरेख आदि) शामिल हैं ताकि, दोनों की मदद से कंटेंट पूल में डुप्लीकेट कॉन्टेंट जैसी चीजों की सटीक पहचान की जा सके। हम, अपने सिस्टम में नकली प्रश्नों के निर्माण और इस्तेमाल को रोकने के लिए इस दृष्टिकोण के साथ-साथ एक रियल-टाइम उपयोगिता प्रणाली का भी उपयोग करते हैं। यह नकली कॉन्टेंट को सिस्टम में आने से रोकने के लिए गेट-कीपर की तरह काम करता है। नकली कॉन्टेंट के अलावा, कॉन्टेंट भावार्थ में पाई जाने वाली समानता की पहचान करने के लिए, हम नॉलेज अवेयर मॉडल और डीप लर्निंग मॉडल [1][2] की मदद से व्याख्या योग्य जानकारी तक पहुंचने का भी प्रयास कर रहे हैं। एक्सप्लेनेबल मॉडल और इससे प्राप्त नतीजों के आधार पर शिक्षाविदों के बीच इस मॉडल [3] की निर्भरता और भरोसे को बढ़ाया जा सकता है।

हमने नीचे दर्शाए गए डाटा फ्लो आरेख के माध्यम से इस पाइपलाइन को संक्षेप में प्रस्तुत करने का प्रयास किया है:

थ्रेशोल्ड सेलेक्शन :

कॉन्टेंट की नकल को रोकने वाली प्रक्रिया (कॉन्टेंट डिडुप्लीकेशन पाइपलाइन) में मूल समस्या यह तय करना होता है कि कितनी समानता को नकल (थ्रेशोल्ड सेलेक्शन/ट्यूनिंग) माना जाए। यह एक से दिखने वाले और बिना नकल वाले प्रश्नों को नकल वाले प्रश्नों से अलग करने में मदद करता है। इस सीमा को तय करने वाले लेबल डाटासेट को तैयार करने के लिए, हमने विषय विशेषज्ञों की मदद ली है। इस डेटासेट में एक एंकर प्रश्न और कैंडिडेट की एक सूची दी गई है। उन्हें, युग्मों को नकली या असली के रूप में चिह्नित करने के लिए निर्देशित किया गया है। कैंडिडेट जनरेशन के लिए, टॉप k कैंडिडेट्स को इमेज डेंस वैक्टर पर इलास्टिक सर्च के फुल-टेक्स्ट प्रश्न और स्क्रिप्ट स्कोर प्रश्न का उपयोग करके कंटेंट पूल से चुना गया है।

अब, उचित थ्रेशोल्ड मान का चयन करने के लिए लेबल किए गए डेटासेट के समक्ष, अधिकतम सटीकता स्कोर उद्देश्य के साथ विभिन्न थ्रेशोल्ड मानों (रेंज : 0.5 से 1.0, स्टेप-साइज़ : 0.05) पर एक ग्रिड सर्च को नियोजित किया गया। यहां, एंकर प्रश्नों के लिए, शीर्ष k कैंडिडेट को तैयार करने के बाद विभिन्न सटीकता मानों पर थ्रेशोल्ड संख्या को कैप्चर किया गया। सिमिलरिटी स्कोर थ्रेशोल्ड, जो अधिकतम सटीकता प्रदान करता है, उसे अंतिम थ्रेशोल्ड मान के रूप में चुना गया।

बेंचमार्क प्रोसेस

होल्ड-आउट लेबल सेट के समक्ष, उल्लिखित डुप्लीकेट पहचान प्रक्रिया की बेंचमार्किंग की गई है। नीचे दी गई तालिका में इन विशिष्टताओं का उल्लेख है:

डाटा 

सेट साइज़ 

सटीकता (सही प्रकार से चिन्हित)

लेबल किए गए प्रश्न युग्म जिनमें शामिल हैं: केवल टेक्स्ट, टेक्स्ट + इमेज, केवल इमेज

5114

83.1% (4250)

लेबल किए गए प्रश्न युग्म जिनमें शामिल हैं: टेक्स्ट + इमेज, केवल इमेज

2710

80.1% (2193)

निष्कर्ष एवं संभावनाएं

आमतौर पर, मशीन लर्निंग टास्क में 80%+ सटीकता को पर्याप्त माना जाता है। लेकिन, Embibe ने जो पैमाना तय किया उसमें मानवीय सत्यापन को और कम करने के लिए अधिक सटीक मॉडल की आवश्यकता होती है। हाल ही में विकसित हो रहे सिमेंटिक समानता आधारित टेक्स्ट माइनिंग के साथ Embibe, 90%+ की सटीकता लक्ष्य के साथ एक डेंस वेक्टर (इमेज और टेक्स्ट एम्बेडिंग) आधारित कॉन्टेंट समानता एल्गोरिदम विकसित कर रहा है।

सन्दर्भ :

[1] Faldu, Keyur, Amit Sheth, Prashant Kikani, and Hemang Akabari. “KI-BERT: Infusing Knowledge Context for Better Language and Domain Understanding.” arXiv preprint arXiv:2104.08145 (2021).

[2] Gaur, Manas, Keyur Faldu, and Amit Sheth. “Semantics of the Black-Box: Can knowledge graphs help make deep learning systems more interpretable and explainable?.” IEEE Internet Computing 25, no. 1 (2021): 51-59.

[3] Gaur, Manas, Ankit Desai, Keyur Faldu, and Amit Sheth. “Explainable AI Using Knowledge Graphs.” In ACM CoDS-COMAD Conference. 2020.