அறிவு வரைபட இணைப்புகளை தானியக்கமாக கண்டுபிடித்தல்
அறிமுகம்
Embibe-யின் அறித்திறன் கற்றல் வரைபடம் என்பது 75,000+ க்கும் மேலான இணைப்புகளை கொண்ட ஒரு பாடத்திட்டத்தின் பல பரிமாணம் கொண்ட வரைபடமாகும்.
ஒவ்வொறு இணைப்பும் ஒரு தனித்துவமான கற்றல் அறித்திறனை குறிக்கிறது, அதுமட்டுமின்றி அவை கருத்துகள் என்றும் அழைக்கப்படுகிறது. அவற்றுக்கு இடையே உள்ள பல்லாயிரக்கணக்கான தொடர்புகள், கருத்துகள் தற்சார்பற்றவை என்றும், அவை ஒன்றோடொன்று தொடர்புடையவை என்பதையும் விளக்குகிறது.
Embibe அதன் உள்ளடக்கத்தை விரிவுபடுத்தும்போது, அறித்திறன் கற்றல் வரைபடமும் தொடர்ந்து விரிவடைந்து வருகிறது. வரலாற்றின் படி, இந்த வரைபடத்தின் பகுதிகளைக் கட்டுப்பாடு, ஸ்மார்ட் ஆட்டோமேஷன் மற்றும் துறை சார்ந்த ஆசிரியர்கள் நேரடியான உள்ளீட்டினால் உருவாக்கப்பட்டுள்ளது. இருப்பினும், இது வரைபடத்தின் புதிய பகுதிகளை தானாகவே கண்டறிந்து, கற்றல் அறித்திறன் வரிசையில் கவரப்படாத பல பகுதிகளை உள்ளடக்கும் வகையில் வரைபடத்தை விரிவுபடுத்துவதை நோக்கமாகக் கொண்ட ஆராய்ச்சியில் Embibe முதலீடு செய்து வருகிறது.
கல்வி ரீதியாக வேறுபட்ட சொற்றொடரை பிரித்தெடுப்பான், லேபிளிடப்பட்ட தரவுத் தொகுப்பு மற்றும் BERT அடிப்படையிலான மாதிரியைப் பயன்படுத்தி அறிவு வரைபடத்தில் புதிய முனைகளைக் கண்டறிய உதவுகிறது மற்றும் அந்த சொற்றொடர்களையும் சொற்றொடர்களின் பொருத்தமான நிலைகளையும் நமக்கு வழங்குகிறது.
கல்வியியல் ரீதியாக வேறுபட்ட சொற்றொடரை பிரித்தெடுத்தல்:
கல்வியியல் ரீதியாக வேறுபட்ட சொற்றொடர் பிரித்தெடுத்தல் (ADPE), ஒரு கல்வி புத்தகத்தில் இருந்து உரையின் முக்கியமான இடைவெளிகளை தானாகவே அடிக்கோடிட்டுக் காட்டுகிறது, ஒரு மாணவர் புத்தகத்தைப் படிக்கும் போது முக்கியமான கருத்துக்களை எவ்வாறு அடிக்கோடிட்டுக் காட்டுகிறார் என்பதைப் போன்றது இது. இதன் முதன்மை நோக்கம், கட்டமைக்கப்படாத உரையிலிருந்து கருத்துகளைப் பிரித்தெடுப்பதாகும், பெரும்பாலான கருத்துக்கள் புத்தக உரையின் துணைப்பகுதிகளாக அடையாளம் காணப்படலாம் என்ற கருதுகோளால் இயக்கப்படுகிறது.
முக்கிய சொற்றொடரை பிரித்தெடுத்தல் மற்றும் பெயரிடப்பட்ட உள்ளடக்கத்தை அறிதல் என்பது தீவிரமான பணியாக இருக்கிறது. இருப்பினும், ஒரு குறிப்பிட்ட தலைப்புகளை கொண்ட கல்வி புத்தகத்திலிருந்து கருத்துகளை தானியக்கமாக பிரித்தெடுப்பது என்பது சவாலான பணியாகும்.
வரையறையின்படி கருத்தை பிரித்தெடுத்தல், பெரிய பணி, அதாவது அவை ஒரு அத்தியாயத்தின் ஒரு பகுதியில் இருக்கும் அனைத்து கருத்துக்களும், அவற்றின் இணை நிகழ்வு மற்றும் கருத்து உள்ளடக்கத்தின் பொருத்தத்தை விவரித்தல் போன்ற கருத்து தரவரிசையின் படி பிரித்தெடுக்கப்பட வேண்டும்.
இது முக்கிய சொற்றொடரைப் பிரித்தெடுப்பதில் இருந்து வேறுபடுகிறது, ஏனெனில் அதற்கு கருத்து தரவரிசை பற்றி அக்கறையில்லை, கட்டுரையில் விவரிக்கும் top-n முக்கிய வார்த்தைகளில் மட்டுமே கவனம் செலுத்துகிறது. மேலும், இது பெயரிடப்பட்ட உள்ளடக்கத்தைப் பிரித்தெடுப்பதில் இருந்தும் வேறுபடுகிறது, ஏனெனில் இது பொதுவாக முன்-குறிப்பிடப்பட்ட வகுப்புகளைச் சேர்ந்த தனிப்பட்ட நிகழ்வுகளைக் கொண்ட (எ.கா: இடம், நபர், ORG) குறுகிய வாக்கியங்களிலிருந்து பிரித்தெடுப்பதில் கவனம் செலுத்துகிறது. பழமையான இயந்திர கற்றல் மற்றும் ஆழந்த கற்றல் அடிப்படையிலான மேற்பார்வை/கண்காணிக்கப்படாத நுட்பங்களைப் பயன்படுத்தி, இத்தகைய பணி சூத்திரங்களால் தூண்டப்பட்ட ஆன்டாலஜி அடிப்படையிலான கருத்தாக்கத்தைப் பிரித்தெடுப்பதற்கான அணுகுமுறைகளை நாங்கள் முன்வைக்கிறோம்.
ஆய்வு அணுகுமுறைகள்:
ADPE தரவுத்தொகுப்பில் செயல்திறனை மேம்படுத்துவதற்கான அதிநவீன மொழியில் இருக்கும் ஆழந்த கற்றல் நுட்பங்களை எங்கள் சோதனைகள் இரண்டு முதன்மை வகைப்பாடு சூத்திரத்தில் பயன்படுத்துகின்றன. அதாவது BERT ( டிரான்ஸ்ஃபார்மர்களிடமிருந்து பைடைரக்ஷ்னல் என்க்கோடர் ரெப்ரசன்டேஷன் ), LSTM (நீண்ட/ குறுகிய கால நினைவகம்), CNN (
கன்வல்யூஷனல் நியூரல் நெட்வொர்க்).
முதலாவதாக, லேபிளிடப்பட்ட உள்ளடக்கத்தை அறிந்து வரிசைப்படி குறியிடுதல்(டேகிங்).
இரண்டாவது, n-கிராம் வகைப்பாடு ஆகும். இது புள்ளியியல், சொற்பொருள், இயற்கை மொழி செயலாக்கம், உரையின் அம்சங்கள் மற்றும் ஆழ்ந்த நியூரல் நெட்வொர்க்கைப் பயன்படுத்தி அவற்றை வகைப்படுத்துதல் ஆகியவற்றுடன் n-கிராம்களை உருவாக்குதல் ஆகும்.
நாங்கள், சிறந்த கற்றல் தரம் வாய்ந்த அறிவியல் இதழ்கள், புத்தக அத்தியாயங்கள் மற்றும் பெருக்கப்பட்ட சொற்களஞ்சியம் கொண்ட வகைப்படுத்தப்படாத BERT மாதிரியை பயன்படுத்துகிறோம். அதுமட்டுமின்றி, அனைத்து குறியாக்கி நிலைகளின் பிரதிநிதித்துவங்களும், வரம்புக்கு உட்பட்ட-பரிமாற்ற பண்புடைய (BIO குறியாக்கம்) CRF ( நிபந்தனை சீரற்ற புலம்) வரிசைமுறை குறியிடலில் உட்செலுத்தப்பட்டு உள்ளீட்டு உரையிலிருந்து கருத்துகளைக் கண்டறிகிறது.
ஏன் CRF (நிபந்தனை சீரற்ற புலம்) :
- CRF வரிசை பதிவு எதிர்பார்த்த அளவு அதிகரிக்கிறது மற்றும் வரிசை குறியிடலையும் எதிர்பார்த்த அளவு உருவாக்குகிறது.
- CRF வரம்புகள், செல்லுபடியாகும் மல்டிகிராம் சீக்வன்ஸ் லேபிள்கள் மட்டுமே லேபிள் குறியாக்கத்தால் உருவாக்கப்படுவதை உறுதி செய்கிறது – (எ.கா: BIO குறியாக்கம் ஒரு வரிசையில் உள்ளடக்கத்தைப் பிரிப்பதற்கு உத்தரவாதம் அளிக்கிறது, ஆனால் சில இலக்கண விதிகள் பூர்த்தி செய்யப்பட வேண்டும்)
- CRF தொடர் பதிவு சாத்தியக்கூறு இழப்பாகப் பயன்படுத்தப்படுகிறது, இது சாதாரண நேரியல் நிலையை விட நெட்வொர்க்கின் (தொடர்ந்து இயக்கப்பட்டால்) வெளியீட்டு லாஜிட்களை சிறப்பாக மேம்படுத்துகிறது.
- சுருக்கம்:
- Embibe-யின் அனைத்து தயாரிப்புகளுக்கும் கற்றல் அறித்திறன் வரைபடமே முதுகெலும்பாக உள்ளது. எனவே கற்றல் அறித்திறன் வரைபடத்தை நிறைவு செய்வது எங்களது முதன்மை பணியாகும். இந்த பணியானது அறித்திறன் வரைபடத்தை பராமரிக்கவும், நேரடியான மிகக் குறைந்த உள்ளீடுடன் விரைவாக மேம்படுத்தவும் எங்களுக்கு உதவியது.
- இந்த பயிற்சி மாதிரியானது BERT-ஐப் பயன்படுத்தி பயிற்சியளிக்கப்படுகிறது மற்றும் தரவு செயலாக்கம், மாதிரியாக்கம் மற்றும் சரிபார்ப்புக்கான பிற நுட்பங்களைப் பயன்படுத்துகிறது. மூல கல்வி உரையிலிருந்து முக்கியமான கல்விச் சொற்களை அடிக்கோடிட்டுக் காட்ட, கல்வி ரீதியாக வேறுபட்ட சொற்றொடர் பிரித்தெடுத்தல் பயன்படுத்தப்படுகிறது. எனவே, வெவ்வேறு மூலங்களிலிருந்து கொடுக்கப்பட்ட உள்ளடக்கத் தரவிலிருந்து கருத்துக்களைக் கண்டறியும் செயல்முறையை தானியக்கமயமாக்கியுள்ளோம்.
பரிந்துரைகள்:
[1] Devlin Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 (2018).
[2] Zhiheng Huang, Wei Xu, Kai Yu. Bidirectional LSTM-CRF Models for Sequence Tagging. arXiv preprint arXiv:1508.01991 (2015)
[3] William Cavnar and John Trenkle. N-Gram-Based Text Categorization. In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (Las Vegas, US, 1994), pp. 161–175.
[4] Gaur, Manas, Keyur Faldu, and Amit Sheth. “Semantics of the Black-Box: Can knowledge graphs help make deep learning systems more interpretable and explainable?.” IEEE Internet Computing 25, no. 1 (2021): 51-59.