वांछित जटिलता वाले प्रश्नों का स्वत: सृजन

वांछित जटिलता वाले प्रश्नों का स्वत: सृजन

Embibe का उद्देश्य शिक्षा का वैयक्तिकरण यानी, प्रत्येक छात्र को उसकी ज़रूरत के मुताबिक शिक्षा प्रदान करना है। हम, अपनी तकनीक की मदद से प्रत्येक छात्र को सही समय पर, सही शिक्षा सामग्री उपलब्ध करा रहे हैं। इस उद्देश्य को हासिल करने के लिए उपयोगी शिक्षा सामग्री के विशाल डेटासेट, खासतौर पर प्रश्नों के संग्रह तक पहुंचना बेहद महत्वपूर्ण है। Embibe ने अब तक, डेटा एंट्री ऑपरेटरों की मदद से प्रश्नों का डेटासेट तैयार किया है। इन ऑपरेटरों ने इंटरनेट पर उपलब्ध नि:शुल्क प्रश्नों का सेट या हमारे सहयोगी संस्थानों की मदद से यह डेटासेट तैयार किया है।

छात्रों की अपने शिक्षकों/मेंटरों पर निर्भरता को कम करने के लिए, हम प्रश्नों के स्वत: सृजन (ऑटो जनरेशन ऑफ क्वेश्चन) की दिशा में गंभीर प्रयास कर रहे हैं। लाखों विद्यार्थियों तक तक शिक्षा पहुंचाने के साथ ही साथ, यह ज़रूरी है कि वे किसी पर निर्भर हुए बिना कॉन्सेप्ट/टॉपिक का अभ्यास करें और अपनी प्रगति का खुद ही मूल्यांकन भी कर सकें। असीमित प्रश्नों की उपलनब्धता की मदद से इस तरह के तार्किक मूल्यांकन पद्धति का निर्माण संभव है [3]। साथ ही, छात्रों को होने वाली परेशानी का निदान [4] या पर्सनलाइज़्ड कंटेंट की मदद से लर्निंग आउटकम को बेहतर बनाया जा सकता है [5] [6]। प्रश्नों का स्वत: सृजन और छात्रों को खुद ही अभ्यास करने व अपनी प्रगति का मूल्यांकन करने में मदद करना, इस दिशा में उठाया गया एक कदम है।

Embibe, यह सुनिश्चित करना चाहता है कि हमारे प्लेटफॉर्म पर छात्रों के पास ऐसे किसी भी टॉपिक पर प्रश्नों की कमी न हो जिस पर उन्हें सुधार करने की आवश्यकता है। यही वजह है कि Embibe, एक ऐसा AI विकसित कर रहा है जो स्वचालित रूप से नए प्रश्न और संबंधित उत्तर उत्पन्न करता है। इस कार्य में कंटेंट क्लस्टरिंग, टॉपिक मॉडलिंग, अत्याधुनिक नेचुरल लैंग्वेज जनरेशन (NLG) और सॉल्वर प्रौद्योगिकी की मदद ली जा रही है।

उद्देश्य

Embibe, एक ऐसा फ्रेमवर्क प्रस्तावित करता है जिसमें अभ्यास करके सीखने और प्रश्नों का उत्तर देकर कॉन्सेप्ट पर महा​रत हासिल करना सिखाया जाता है। यह कॉन्सेप्ट को समझने और याद रखने का अप्रत्यक्ष तरीका है। प्रश्नों का स्वत: सृजन (ऑटोमैटिक क्वेश्चन जनरेशन), वह प्रक्रिया है जो लर्निंग टेक्स्ट को एक इनपुट के रूप में लेती है और उससे प्रश्न बनाती है। विद्यार्थी अपने ज्ञान के आधार पर इन प्रश्नों को हल कर, अभ्यास कर सकते हैं और कॉन्सेप्ट के बारे में सीख सकते हैं।

प्रश्नों का स्वत: सृजन, नेचुरल लैंग्वेज प्रोसेसिंग (NLP) का हिस्सा है। यह शोध का एक क्षेत्र है, जहां कई शोधकर्ताओं ने अपना कार्य प्रस्तुत किया है। हालांकि, इसकी सटीकता के स्तर में अभी भी सुधार की संभावना है। नेचुरल लैंग्वेज प्रोसेसिंग की मदद से प्रश्नों के स्वत: सृजन के क्षेत्र में शोधकर्ताओं ने महत्वपूर्ण काम किया है। साथ ही, प्रश्नों के स्वत: सृजन के लिए कई तकनीक और मॉडल भी विकसित किए गए हैं।

दृष्टिकोण

चित्र 1 में दिखाया गया चित्र, प्रश्नों के स्वत: सृजन तकनीक के निर्माण में उच्च स्तरीय दृष्टिकोण को प्रदर्शित करता है। ऑटो क़्वेश्चन जनरेशन में अत्याधुनिक NLP तकनीक और ट्रांसफॉर्मर मॉडल का उपयोग किया जाता है। यह उत्पन्न प्रश्नों की गुणवत्ता और जटिलता को बढ़ाने के लिए, टेक्स्ट की वाक्य रचना और शब्दार्थ पर हो रहे शोध कार्य का भी लाभ उठाता है।

चित्र 1. ऑटो क़्वेश्चन जनरेशन का उच्च स्तरीय आर्किटेक्चर

प्रश्नों के स्वत: सृजन तकनीक के निर्माण में टेक्स्ट प्रोसेसिंग, फीचर निष्कर्षण और इंजीनियरिंग, मॉडल निर्माण और प्रशिक्षण, मॉडल मूल्यांकन, एनोटेशन और कुछ मानक ML तकनीक जैसे कई घटक शामिल हैं।

हमने अपने QA मॉडल को प्रशिक्षित करने के लिए ARC, DROP, QASC, SciQ, SciTail, SQuAD और Google NQ और Embibe के स्वामित्व वाले डेटासेट जैसे 20 से अधिक विभिन्न ओपन-सोर्स डेटासेट का उपयोग किया है। साथ ही, विभिन्न प्रकार के प्रश्नों जैसे- बूलियन, स्पैन-आधारित, रिक्त स्थान, बहुविकल्पीय प्रश्न आदि का भी उपयोग किया गया है। प्रश्नों की जटिलता को समझने के लिए प्रश्न के वाक्यात्मक गठन, उत्तर प्राप्त करने के लिए आवश्यक मल्टी-हॉप तर्क का इस्तेमाल किया गया है। साथ ही, प्रश्न का उत्तर और कॉन्सेप्ट की अंतर्निहित जटिलता को समझने के लिए यह तरीका अपनाया जाता है। हम KI-BERT[1] द्वारा प्रेरित QG मॉडल में प्रासंगिक नॉलेज देने के लिए नॉलेज ग्राफ़ का भी उपयोग कर रहे हैं। हम प्रश्न सृजन के प्रदर्शन को बेहतर बनाने के लिए, मूल रूप से निर्मित नेचुरल लैंग्वेज अंडरस्टैंडिंग तकनीकों का लाभ उठाते हैं।

टेक्स्ट उत्पन्न करने के लिए, हम T5[2] जैसे जनरेटिव मॉडल का उपयोग कर सकते हैं। यह, दिए गए संदर्भ और उत्तर के मुताबिक प्रश्न उत्पन्न कर सकता है। यहां बताया गया है, कि फ्लो कैसा होगा।

चित्र 2. QG मॉडल वर्कफ़्लो

परिणाम

संबंधित विषय की पुस्तकों की मदद से छात्रों के लिए अधिक से अधिक प्रश्न उत्पन्न करने के लिए भी Embibe के AI प्लेटफॉर्म का लाभ उठाया जाता है। सभी ग्रेड, लक्ष्यों, परीक्षाओं, राज्य बोर्डों को ध्यान में रखते हुए, अब तक हमने कक्षा 6 से 12 तक की एनसीईआरटी की पुस्तकों से लगभग ~125k प्रश्नों का सृजन किया है। हमारे पास किसी भी फ्री-फॉर्म लर्निंग टेक्स्ट से प्रश्न सृजन की क्षमता है।

किसी भी क्षेत्र में वास्तविक दुनिया के परिदृश्यों और लर्निंग आउटकम को बेहतर बनाने के लिए भी इस प्रणाली का उपयोग किया जा सकता है। हम एडवांस्ड NLP के युग में अपने मॉडल और सिस्टम को अत्याधुनिक व डोमेन विशिष्ट बनाने की दिशा में कार्यरत हैं।

यहां, हमने दिए गए डोमेन विशिष्ट इनपुट और उत्पन्न प्रश्नों के सेट के कुछ उदाहरण दिए हैं।

एकेडमिक टेक्स्ट:

चित्र 3. चयनित पैराग्राफ और हाइलाइट किए गए ADPE अर्थात एकेडमिक रूप से प्रासंगिक शब्द

सृजित प्रश्न:

चित्र 4. चयनित पैराग्राफ से QG मॉडल द्वारा जेनरेटेड क्वेश्चन

संदर्भ

[1] Faldu, Keyur, Amit Sheth, Prashant Kikani, and Hemang Akabari. “KI-BERT: Infusing Knowledge Context for Better Language and Domain Understanding.” arXiv preprint arXiv:2104.08145 (2021).

[2] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu. “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”

[3] Desai, Nishit, Keyur Faldu, Achint Thomas, and Aditi Avasthi. “System and method for generating an assessment paper and measuring the quality thereof.” U.S. Patent Application 16/684,434, filed October 1, 2020.

[4] “Autogeneration of Diagnostic Test and Their Quality Evaluation – EDM:2020”, EDM 2020 presentation, Jul 2020, https://www.youtube.com/watch?v=7wZz0ckqWFs

[5] Thomas, Achint, Keyur Faldu, and Aditi Avasthi. “System and method for personalized retrieval of academic content in a hierarchical manner.” U.S. Patent Application 16/740,223, filed October 1, 2020.

[6] Faldu, Keyur, Achint Thomas, and Aditi Avasthi. “System and method for recommending personalized content using contextualized knowledge base.” U.S. Patent Application 16/586,512, filed October 1, 2020.