நகல்நீக்கம்: ஒரு தொழில்நுட்ப பார்வை

நகல்நீக்கம்: ஒரு தொழில்நுட்ப பார்வை

ஒரு எட்டெக் தளமாக, மாணவர்களின் கற்றல் தேவைகளை பூர்த்தி செய்ய Embibe மிகப்பெரும் அளவிலான கற்றல் உள்ளடக்கங்களை சேகரித்து நிர்வகித்து வருகிறது. இந்த உள்ளடக்கங்களில் வீடியோக்கள், விளக்கவுரைகள், ஆர்வமூட்டும் கற்றல் கூறுகள் போன்ற உள்ளடக்கங்களும் இருக்கின்றன. மேலும், இதிலுள்ள பிராக்டிஸ் மற்றும் டெஸ்ட் கேள்விகள் விளையாட்டு வடிவில் உருவாக்கப்பட்டு மாணவர்களின் ஆர்வத்தை தூண்டும் வகையில் அமைந்திருக்கிறது.

Embibe-யில், பிராக்டிஸ் மற்றும் டெஸ்ட் கதைக்களத்தின் கீழ் இருக்கும் மாணவர்களின் ஈடுபாட்டு சதவிகிதம் எங்களுக்கு, அவர்களது கல்வி, ஒழுக்கநெறி, டெஸ்ட்-எடுத்தல், டெஸ்ட்-நிலை மற்றும் மாணவர் முயற்சிகள் தொடர்பான குறிப்புகள் போன்ற முக்கியமான தகவலை வழங்குகிறது. இது மாணவர் பயணத்தை இயக்க உதவும் மாணவர் முயற்சி ரீதியான குறிப்புகளை வழங்குவது மட்டுமின்றி மாணவர்கள் அவர்களது அதிகபட்ச திறனை அடைய வழிவகுக்கிறது. பிராக்டிஸ் மற்றும் டெஸ்ட் அம்சங்களின் கொடுக்கப்பட்டிருக்கும் முக்கியத்துவத்தைப் பொறுத்தவரை, அதில் மாணவர்களின் அதிகபட்ச ஈடுபாடு மற்றும் எளிமையான புரிதலில் எங்களுக்கு அபார நம்பிக்கை இருக்கிறது. 

கேள்விகளின் தொகுப்பை தயாரிப்பதற்கு பல்வேறு மூலங்கள் உள்ளன – இந்த செயல்முறையில் எங்களது சொந்த ஆசிரியர்கள், பாட வல்லுநர்கள், கல்வி ஆலோசகர்கள் மற்றும் பல்வேறு பணியாளர்கள் ஈடுபட்டுள்ளனர். இந்த தொகுப்பில் புகழ்பெற்ற பாடப்புத்தகங்கள் மற்றும் மேற்கோள் புத்தகங்களிலிருந்து எடுக்கப்பட்ட கேள்விகளும் இருக்கின்றன. இவ்வாறு பல விஷயங்களுக்கு உள்ளடக்கக் தொகுப்பு மூலாதாரமாக இருப்பதாலும், மாணவர்களின் ஈடுபாடு தரமான உள்ளடக்கத்தை சார்ந்து இருப்பதாலும், அதன் தரத்தை தொடர்ந்து கண்காணிப்பது அவசியமாகிறது. உள்ளடக்கத்தின் நகல், தெளிவில்லாத கேள்வி, முழுமையற்ற கேள்விகள், தவறான மெட்டா Tag-கள் என தர பரிசோதனையின் போது உள்ளடக்கத் தொகுப்பில் இருக்கும் பல்வேறு தரம் தொடர்பான சிக்கல்கள் சரி செய்யப்படுகின்றன. இந்த கட்டுரையில், உள்ளடக்கத்தில் இருக்கும் நகல் பிரச்சினை மற்றும் அதை சமாளிக்க Embibe-யில் பயன்படுத்தப்படும் அறிவார்ந்த அமைப்பு பற்றி விவாதிப்போம்.

உள்ளடக்க நகல்கள் மற்றும் அதற்கான தீர்வு 

அமைப்பில் இருக்கும் உள்ளடக்கத்தின் நகல்கள், (டெஸ்ட்/பிராக்டிஸ் கணக்குகள்/கேள்விகள்) பயனர் ஈடுபாட்டை மிகவும் பாதிக்கும் பிரச்சினைகளில் தலையாயது ஆக இருக்கிறது. புரியும் படி சொன்னால், “பேஸ்புக் அல்லது இன்ஸ்டாகிராம் போன்ற சமூக வலைத்தளங்களை பயனர் பயன்படுத்தி கொண்டிருக்கும் போது ஒரே படம் அல்லது வீடியோ திரும்ப திரும்ப அவர்கள் திரையில் வந்தால் பயனர் எரிச்சலைடைவர், இதனால் பயனர் ஈடுபாடு குறையும். அது மட்டுல்லாமல் பயனர் மீண்டும் அந்த தளத்திற்கு வராமலே போவதற்கு கூட  வாய்ப்பிருக்கிறது.” இதேபோல், அதே கேள்வி அதே பிராக்டிஸ் அல்லது டெஸ்ட் பிரிவுகள் மாணவர்களுக்கு மீண்டும் மீண்டும் வழங்கப்பட்டால், அது நிச்சயமாக மாணவரின் வீழ்ச்சிக்கு வழிவகுக்கும்.

Embibe-யில், இந்த சிக்கலைச் சமாளிக்க, நாங்கள் ஒரு ஹைபிரிட் அணுகுமுறையைப் பயன்படுத்துகிறோம், இது வாக்கிய அமைப்புக்கு (திருத்த முடியும் வரை) தேவையான திருத்தங்கள் மற்றும் ஆழந்த கற்றல் அடிப்படையில் (ரெஸ்நெட் -18 கன்வல்யூஷனல் நியூரல் நெட்வொர்க் கட்டமைப்பு) அடர் திசை ரீதியான ஒற்றுமைகள் மூலம் கேள்விகளுக்கான நகல்களை அடையாளம் காண்கிறது.  நகல் நீக்க குழல் தொடரை செயல்படுத்த, உரை உள்ளடக்கத்தில் முழு-உரை சார் கேள்விகள் மற்றும் அடர் திசை புலங்களில் சமீபத்தில் கிடைத்த கட்டுரை சார் மதிப்பெண் கொண்ட கேள்விகள் போன்ற மீள் தேடல்(லூசீன்) முக்கிய செயல்பாடுகளைப் பயன்படுத்துகிறோம். எங்கள் கற்றல் உள்ளடக்கங்கள்(கேள்விகள்), உரை (கேள்வி உரை, பதில் உரை) மற்றும் படம்/வரைபட தகவல்களை (புள்ளிவிவரங்கள், வரைபடங்கள், முதலியன) கொண்டிருக்கின்றன. அதுமட்டுமின்றி குழல் தொடர், உள்ளடக்க தொகுப்பிலிருந்து சரியான நகல் ஜோடியை அடையாளம் காண அவை இரண்டையும் எடுத்துக்கொள்கிறது. மேற்கூறிய அணுகுமுறையுடன், அமைப்பில் நகல் கேள்விகளை உருவாக்குதல், உட்செலுத்துதல் போன்றவற்றை தடுக்க நிகழ்நேரப் பயன்பாட்டையும் நாங்கள் செயல்படுத்தியுள்ளோம்; இது நகல் நீக்கத்திற்கு ஒரு வாயில்-காப்பாளர் போல பணிபுரிகிறது.

உரையின் சொற்பொருள் ஒற்றுமையை அறித்திறன் உணர் மாதிரிகளைப் பயன்படுத்தி மேம்படுத்தலாம், மேலும் ஆழந்த கற்றல் மாதிரிகள் மூலம் புரிந்துகொள்ளக்கூடிய தகவல்களை அணுகலாம். எளிமையான புரிதலை உடைய மாதிரிகள், கல்வியாளர்களின் நம்பிக்கையை வளர்த்து அவர்கள் மாதிரிகளின் வெளிப்பாடுகளை சார்ந்திருக்கு பேருதவி புரியும்.

கீழே கொடுக்கப்பட்டிருக்கும் தரவுப்பாய்வு வரைபடத்தின் மூலம் இந்த குழல் தொடரை சுருக்கமாக விளக்குகிறோம்:

வரம்புநிலை தேர்வு:

உள்ளடக்க நகல் நீக்கம் குழல்தொடரை பொறுத்த வரை, வரம்புநிலை தேர்வு என்பது பிரச்சினையின் மிக முக்கிய பகுதியாகும். இது நகல் கேள்விகளிலிருந்து அதை ஒத்த மற்றும் நகல் அல்லாத கேள்விகளை பிரிக்க உதவுகிறது. இங்கே, பொருத்தமான வரம்புகளை அடையாளம் காண, பெயரிடப்பட்ட தரவுத்தொகுப்பைத் தயாரிப்பதில் பாட வல்லுநர்களின் உதவியை நாங்கள் பெற்றுள்ளோம். அதில் அவர்களுக்கு மாணவர்களை யோசிக்கவைக்கும் கேள்வியும், மாணவர்களின் பட்டியலும் கொடுக்கப்பட்டு, அதிலிருந்து அதற்கு ஒத்த அல்லது நகல் அல்லாத கேள்விகளை என்று அடையாளம் காணும் படி அவர்கள் கேட்டுக் கொள்ளப்பட்டனர். மாணவர் பட்டியலை தேர்வு செய்ய, பட அடர் திசை மீள் தேடலில், முழு-உரை சார் கேள்விகள் மற்றும் கட்டுரை சார் மதிப்பெண் கேள்விகளைப் பயன்படுத்தி உள்ளடக்க தொகுப்பிலிருந்து k தரத்தில் முதல் நிலையில் இருக்கும் மாணவர்கள் தேர்ந்தெடுக்கப்பட்டனர்.

இப்போது, ​​சரியான வரம்புநிலை மதிப்பைத் தேர்ந்தெடுக்க, பெயரிடப்பட்ட தரவுத்தொகுப்பில், அதிகபட்ச துல்லிய மதிப்புகளில் கிடைக்கும் வெவ்வேறு வரம்புநிலை மதிப்புகளை (வரம்பு: 0.5 முதல் 1.0, படி அளவு: 0.05) கொண்ட ஒரு தேடல் அமைப்பு (கிரிட் தேடல்) பயன்படுத்தப்படுகிறது. வெவ்வேறு வரம்புநிலை மதிப்புகளில் பெறப்பட்ட துல்லியமான மதிப்புகள் மற்றும் யோசிக்கவைக்கும் கேள்விகளுக்கு, தலைசிறந்த k நிலை மாணவர்களின் பட்டியல் உருவாக்கப்படிருக்கிறது. அதிகபட்ச துல்லிய மதிப்பை கொண்டிருக்கும் ஒத்த மதிப்பின் வரம்புநிலை, இறுதி வரம்புநிலை மதிப்பாக எடுத்துக்கொள்ளப்படுகிறது.

தரக்குறியிடல் செயல்முறை

ஹோல்ட்-அவுட் என்று பெயரிடப்பட்ட தொகுப்புக்கு எதிராக, குறிப்பிடப்பட்ட நகல்களை அடையாளம் காணும் செயல்முறையின் அளவுகோல் உருவாக்கப்பட்டது. கீழே உள்ள அட்டவணை அதன் இயல்புகளை குறிப்பிடுகிறது:

தரவுஅளவுகள் துல்லியம் (சரியாக குறிக்கப்பட்டுள்ளது)
பெயரிடப்பட்ட கேள்வி இணைகள்: ஒரே உரை, உரை + படம், படம் மட்டும்5114511483.1% (4250)83.1% (4250)
பெயரிடப்பட்ட கேள்வி ஜோடிகள்: உரை + படம், படம் மட்டும்2710271080.1% (2193)80.1% (2193)


முடிவுரை மற்றும் எதிர்கால திட்டம் 

பல இயந்திரக் கற்றல் பணிகளில் 80%+ துல்லியத்தன்மை போதுமானதாக இருந்தாலும், Embibe இல் இருக்கும் தரநிலைக்கு வல்லுநர்கள் மூலம் செய்யப்படும் சரிபார்ப்பை குறைக்க, மேலும் துல்லியமாக கணிக்கும் மாதிரிகள் தேவைப்படுகின்றன. சொற்பொருள் ஒற்றுமை அடிப்படையிலான டெக்ஸ்ட் மைனிங்கில் தற்போதைய வளர்ச்சியுடன், Embibe 90%+ துல்லியத் தன்மை என்ற இலக்குடன் அடர் திசை (படம் மற்றும் உரை உட்பொதித்தல்) அடிப்படைக்கொண்ட உள்ளடக்க ஒற்றுமை அல்காரிதத்தை உருவாக்குகிறது.

ரெபரன்ஸ்:

[1] Faldu, Keyur, Amit Sheth, Prashant Kikani, and Hemang Akabari. “KI-BERT: Infusing Knowledge Context for Better Language and Domain Understanding.” arXiv preprint arXiv:2104.08145 (2021).

[2] Gaur, Manas, Keyur Faldu, and Amit Sheth. “Semantics of the Black-Box: Can knowledge graphs help make deep learning systems more interpretable and explainable?.” IEEE Internet Computing 25, no. 1 (2021): 51-59.

[3] Gaur, Manas, Ankit Desai, Keyur Faldu, and Amit Sheth. “Explainable AI Using Knowledge Graphs.” In ACM CoDS-COMAD Conference. 2020.