वांछित जटिलता वाले प्रश्नों का स्वत: सृजन
Embibe का उद्देश्य शिक्षा का वैयक्तिकरण यानी, प्रत्येक छात्र को उसकी ज़रूरत के मुताबिक शिक्षा प्रदान करना है। हम, अपनी तकनीक की मदद से प्रत्येक छात्र को सही समय पर, सही शिक्षा सामग्री उपलब्ध करा रहे हैं। इस उद्देश्य को हासिल करने के लिए उपयोगी शिक्षा सामग्री के विशाल डेटासेट, खासतौर पर प्रश्नों के संग्रह तक पहुंचना बेहद महत्वपूर्ण है। Embibe ने अब तक, डेटा एंट्री ऑपरेटरों की मदद से प्रश्नों का डेटासेट तैयार किया है। इन ऑपरेटरों ने इंटरनेट पर उपलब्ध नि:शुल्क प्रश्नों का सेट या हमारे सहयोगी संस्थानों की मदद से यह डेटासेट तैयार किया है।
छात्रों की अपने शिक्षकों/मेंटरों पर निर्भरता को कम करने के लिए, हम प्रश्नों के स्वत: सृजन (ऑटो जनरेशन ऑफ क्वेश्चन) की दिशा में गंभीर प्रयास कर रहे हैं। लाखों विद्यार्थियों तक तक शिक्षा पहुंचाने के साथ ही साथ, यह ज़रूरी है कि वे किसी पर निर्भर हुए बिना कॉन्सेप्ट/टॉपिक का अभ्यास करें और अपनी प्रगति का खुद ही मूल्यांकन भी कर सकें। असीमित प्रश्नों की उपलनब्धता की मदद से इस तरह के तार्किक मूल्यांकन पद्धति का निर्माण संभव है [3]। साथ ही, छात्रों को होने वाली परेशानी का निदान [4] या पर्सनलाइज़्ड कंटेंट की मदद से लर्निंग आउटकम को बेहतर बनाया जा सकता है [5] [6]। प्रश्नों का स्वत: सृजन और छात्रों को खुद ही अभ्यास करने व अपनी प्रगति का मूल्यांकन करने में मदद करना, इस दिशा में उठाया गया एक कदम है।
Embibe, यह सुनिश्चित करना चाहता है कि हमारे प्लेटफॉर्म पर छात्रों के पास ऐसे किसी भी टॉपिक पर प्रश्नों की कमी न हो जिस पर उन्हें सुधार करने की आवश्यकता है। यही वजह है कि Embibe, एक ऐसा AI विकसित कर रहा है जो स्वचालित रूप से नए प्रश्न और संबंधित उत्तर उत्पन्न करता है। इस कार्य में कंटेंट क्लस्टरिंग, टॉपिक मॉडलिंग, अत्याधुनिक नेचुरल लैंग्वेज जनरेशन (NLG) और सॉल्वर प्रौद्योगिकी की मदद ली जा रही है।
उद्देश्य
Embibe, एक ऐसा फ्रेमवर्क प्रस्तावित करता है जिसमें अभ्यास करके सीखने और प्रश्नों का उत्तर देकर कॉन्सेप्ट पर महारत हासिल करना सिखाया जाता है। यह कॉन्सेप्ट को समझने और याद रखने का अप्रत्यक्ष तरीका है। प्रश्नों का स्वत: सृजन (ऑटोमैटिक क्वेश्चन जनरेशन), वह प्रक्रिया है जो लर्निंग टेक्स्ट को एक इनपुट के रूप में लेती है और उससे प्रश्न बनाती है। विद्यार्थी अपने ज्ञान के आधार पर इन प्रश्नों को हल कर, अभ्यास कर सकते हैं और कॉन्सेप्ट के बारे में सीख सकते हैं।
प्रश्नों का स्वत: सृजन, नेचुरल लैंग्वेज प्रोसेसिंग (NLP) का हिस्सा है। यह शोध का एक क्षेत्र है, जहां कई शोधकर्ताओं ने अपना कार्य प्रस्तुत किया है। हालांकि, इसकी सटीकता के स्तर में अभी भी सुधार की संभावना है। नेचुरल लैंग्वेज प्रोसेसिंग की मदद से प्रश्नों के स्वत: सृजन के क्षेत्र में शोधकर्ताओं ने महत्वपूर्ण काम किया है। साथ ही, प्रश्नों के स्वत: सृजन के लिए कई तकनीक और मॉडल भी विकसित किए गए हैं।
दृष्टिकोण
चित्र 1 में दिखाया गया चित्र, प्रश्नों के स्वत: सृजन तकनीक के निर्माण में उच्च स्तरीय दृष्टिकोण को प्रदर्शित करता है। ऑटो क़्वेश्चन जनरेशन में अत्याधुनिक NLP तकनीक और ट्रांसफॉर्मर मॉडल का उपयोग किया जाता है। यह उत्पन्न प्रश्नों की गुणवत्ता और जटिलता को बढ़ाने के लिए, टेक्स्ट की वाक्य रचना और शब्दार्थ पर हो रहे शोध कार्य का भी लाभ उठाता है।
प्रश्नों के स्वत: सृजन तकनीक के निर्माण में टेक्स्ट प्रोसेसिंग, फीचर निष्कर्षण और इंजीनियरिंग, मॉडल निर्माण और प्रशिक्षण, मॉडल मूल्यांकन, एनोटेशन और कुछ मानक ML तकनीक जैसे कई घटक शामिल हैं।
हमने अपने QA मॉडल को प्रशिक्षित करने के लिए ARC, DROP, QASC, SciQ, SciTail, SQuAD और Google NQ और Embibe के स्वामित्व वाले डेटासेट जैसे 20 से अधिक विभिन्न ओपन-सोर्स डेटासेट का उपयोग किया है। साथ ही, विभिन्न प्रकार के प्रश्नों जैसे- बूलियन, स्पैन-आधारित, रिक्त स्थान, बहुविकल्पीय प्रश्न आदि का भी उपयोग किया गया है। प्रश्नों की जटिलता को समझने के लिए प्रश्न के वाक्यात्मक गठन, उत्तर प्राप्त करने के लिए आवश्यक मल्टी-हॉप तर्क का इस्तेमाल किया गया है। साथ ही, प्रश्न का उत्तर और कॉन्सेप्ट की अंतर्निहित जटिलता को समझने के लिए यह तरीका अपनाया जाता है। हम KI-BERT[1] द्वारा प्रेरित QG मॉडल में प्रासंगिक नॉलेज देने के लिए नॉलेज ग्राफ़ का भी उपयोग कर रहे हैं। हम प्रश्न सृजन के प्रदर्शन को बेहतर बनाने के लिए, मूल रूप से निर्मित नेचुरल लैंग्वेज अंडरस्टैंडिंग तकनीकों का लाभ उठाते हैं।
टेक्स्ट उत्पन्न करने के लिए, हम T5[2] जैसे जनरेटिव मॉडल का उपयोग कर सकते हैं। यह, दिए गए संदर्भ और उत्तर के मुताबिक प्रश्न उत्पन्न कर सकता है। यहां बताया गया है, कि फ्लो कैसा होगा।
परिणाम
संबंधित विषय की पुस्तकों की मदद से छात्रों के लिए अधिक से अधिक प्रश्न उत्पन्न करने के लिए भी Embibe के AI प्लेटफॉर्म का लाभ उठाया जाता है। सभी ग्रेड, लक्ष्यों, परीक्षाओं, राज्य बोर्डों को ध्यान में रखते हुए, अब तक हमने कक्षा 6 से 12 तक की एनसीईआरटी की पुस्तकों से लगभग ~125k प्रश्नों का सृजन किया है। हमारे पास किसी भी फ्री-फॉर्म लर्निंग टेक्स्ट से प्रश्न सृजन की क्षमता है।
किसी भी क्षेत्र में वास्तविक दुनिया के परिदृश्यों और लर्निंग आउटकम को बेहतर बनाने के लिए भी इस प्रणाली का उपयोग किया जा सकता है। हम एडवांस्ड NLP के युग में अपने मॉडल और सिस्टम को अत्याधुनिक व डोमेन विशिष्ट बनाने की दिशा में कार्यरत हैं।
यहां, हमने दिए गए डोमेन विशिष्ट इनपुट और उत्पन्न प्रश्नों के सेट के कुछ उदाहरण दिए हैं।
एकेडमिक टेक्स्ट:
सृजित प्रश्न:
संदर्भ
[3] Desai, Nishit, Keyur Faldu, Achint Thomas, and Aditi Avasthi. “System and method for generating an assessment paper and measuring the quality thereof.” U.S. Patent Application 16/684,434, filed October 1, 2020.
[4] “Autogeneration of Diagnostic Test and Their Quality Evaluation – EDM:2020”, EDM 2020 presentation, Jul 2020, https://www.youtube.com/watch?v=7wZz0ckqWFs
[5] Thomas, Achint, Keyur Faldu, and Aditi Avasthi. “System and method for personalized retrieval of academic content in a hierarchical manner.” U.S. Patent Application 16/740,223, filed October 1, 2020.
[6] Faldu, Keyur, Achint Thomas, and Aditi Avasthi. “System and method for recommending personalized content using contextualized knowledge base.” U.S. Patent Application 16/586,512, filed October 1, 2020.