नॉलेज ग्राफ नोड्सचा स्वयंचलित शोध
ओळख:
Embibe चा नॉलेज ग्राफ हा अज्ञान आलेख हा Embibe च्या सर्व उत्पादनांचा कणा आहे. त्यामुळे ज्ञान आलेख पूर्ण करणे हे आमचे प्राथमिक कार्य आहे. या कामामुळे आम्हाला ज्ञान आलेख राखण्यासाठी आणि अतिशय कमी मानवी हस्तक्षेपाने वेगाने वाढविण्यामध्ये मदत झाली आहे. भ्यासक्रम आधारित बहू-आयामी आलेख आहे जो 75000+ नोड्स ने बनलेला आहे, ज्यापैकी प्रत्येक शैक्षणिक ज्ञानाच्या स्वतंत्र एककाचे प्रतिनिधित्व करतो ज्याला कॉन्सेप्ट असे देखील म्हणतात आणि त्यांच्या मधील शेकडो हजारो अंतर्गत संबंध जे कॉन्सेप्ट कशाप्रकारे स्वतंत्र परंतु दुसऱ्या संकल्पनेशी संबंधित आहेत ते दर्शवितात.
Embibe त्यांची कॉन्टेन्ट विस्तारत असल्यामुळे नॉलेज ग्राफ सुद्धा सतत विकसित होत आहे. मागील कालावधीमध्ये, हा तज्ञांच्या मानवी प्रयत्नाद्वारे आणि आलेखाचे काही भाग सुधारित करण्यासाठी स्मार्ट ऑटोमेशन सह तयार केला गेला आहे. तथापि, Embibe अशा संशोधनामध्ये गुंतवणूक करत आहे जो आलेखमधील नोड्स स्वयंचलितपणे शोधण्याचे ध्येय बाळगून आहे आणि जो आलेखामध्ये शैक्षणिक ज्ञान पटाचे अजून भाग अंतर्भूत करेल. शैक्षणिक दृष्ट्या वैविध्य असलेले वाक्यांश शोधक आम्हाला ज्ञान आलेखमधील नवीन नोड शोधण्यास लेबल्ड डेटा सेट आणि BERT मॉडेल वापरुन मदत करतो आणि आपल्याला वाक्यांश आणि त्या वाक्यांशासह संबंधित स्तर देते.
शैक्षणिक दृष्ट्या वैविध्य असलेले वाक्यांश शोधक:
शैक्षणिक दृष्ट्या वैविध्य असलेले वाक्यांश शोधक (ADPE) हे शालेय पाठ्यपुस्तकामधून महत्त्वाच्या संकल्पना स्वयंचलित रित्या अधोरेखित करते अगदी जसे विद्यार्थी पुस्तक वाचताना महत्त्वाच्या संकल्पनांना अधोरेखित करतात. याचे प्राथमिक उद्देश्य असंघटित मजकुरामधून संकल्पना शोधणे आहे, जे एका गृहितकाद्वारे चालते जो आहे की बहुतेक संकल्पना पाठ्यपुस्तकाच्या सबस्पॅन म्हणून ओळखल्या जाऊ शकतात.
महत्त्वाचे वाक्यांश आणि नाव दिलेला घटक शोधण्यावर बरेच काम झाले आहे. तथापि, पाठ्यपुस्तकामधून स्वयंचलित पणे वाक्यांश शोधणे हे आव्हानात्मक कार्य आहे ज्याने मर्यादित क्षेत्र बघितले आहे. संकल्पना शोध याची परिभाषा स्वभावत: परिपूर्ण आहे म्हणजेच सर्व संकल्पना शोधल्या गेल्या पाहिजेत, ज्या धड्याच्या संकल्पना अनुक्रमाचा एक भाग आहेत, ज्या त्यांच्या एकत्रित असण्याचे आणि समर्पकतेचे धड्याच्या संदर्भात वर्णन करतात. ते महत्त्वाचे वाक्यांश शोधण्यापेक्षा वेगळे आहे कारण ते लेख वर्णन करणाऱ्या टॉप-एन किवर्ड वर लक्ष केंद्रित करते समर्पकतेच्या अर्थपूर्ण अनुक्रमावर करेलच असे नाही. याशिवाय हे नामोल्लेखित गोष्ट यापेक्षा सुद्धा वेगळे आहे कारण ते लक्ष केंद्रित करते asha गोष्टी शोधण्यास ज्या पूर्व निर्धारित गटांना संबंधित असतात (उदा.: ठिकाण, व्यक्ति, ORG) सामान्यतः लहान मजकुरामधून जसे की अशी वाक्ये जी सिमॅंटिक अनुक्रमाने तयार झालेली नाहीत जे आपल्या अद्वितीय, संबंधित संकल्पना शोधण्याच्या ध्येयाच्या विरुद्ध आहे. आम्ही ओंटॉलॉजी आधारित संकल्पना शोधण्यासाठी दृष्टिकोन पुरवतो जो अशा कार्य सूत्रीकरणाने शास्त्रीय मशीन लर्निंग आणि डिप लर्निंग आधारित सुपरव्हाईज्ड/अनसुपरव्हाईज्ड तंत्रे यांनी प्रेरित आहे.
संशोधन दृष्टिकोन:
आमचे प्रयोग स्टेट ऑफ आर्ट डिप लर्निंग तंत्राना ADPE माहिती संचावरील कामगिरी सुधारण्यास मदत करतात, जसे की BERT (बायडायरेक्शनल एनकोडर रिप्रेझेन्टेशन फ्रॉम ट्रान्सफॉर्मर्स), LTSM(लॉंग शॉर्ट-टर्म मेमरी), CNNs (कॉनव्होल्युशनल न्यूरल नेटवर्क) दोन प्राथमिक सूत्रीकरणामध्ये. पहिले आहे क्रम टॅग करणे नाव दिलेल्या गोष्टीची ओळख करण्या करीता आणि दुसरे आहे एन-ग्राम वर्गीकरण उमेदवारांचे एन-ग्राम निर्माण करण्यासाठी सांख्यिकी, सिमॅंटिक, नॅचरल लँग्वेज प्रोसेसिंग, मजकूर वैशिष्ठ्ये आणि त्यांना डिप न्यूरल नेटवर्क वापरुन वर्गीकृत करणे.
आम्ही BERT अनकेस्ड मॉडेल ला ऑगमेंटेड व्होकॅब सह पुरवतो आणि शास्त्रीय जर्नल आणि पुस्तकातील धड्यावर अधिक उत्तम करतो. त्यानंतर, सर्व एनकोडर लेयर मांडणी कंसट्रेंड-ट्रांझिशन (बायो एनकोडिंग) CRF (कंडिशनल रॅनडम फील्ड) क्रमवारी टॅगर ला इनपुट केलेल्या मजकुरामधून संकल्पना शोधण्यासाठी.
CRF का (कंडिशनल रॅनडम फील्ड):
- CRF मर्यादा याची खात्री करतात की केवळ वैध मल्टीग्राम क्रमवारी लेबल निर्माण केली जातील जसे लेबल एनकोडिंग द्वारे मिळविले आहे – (उदा: BIO एनकोडिंग याची खात्री देते की बाबींचे क्रमवारीतील विभाजन होईल परंतु काही व्याकरण नियम असतात जे पूर्ण केले गेले पाहिजेत)
- CRF sequential log likelihood is used as loss which better optimizes network’s (if left unfrozen) output logits than a ordinary linear layer as can be confirmed by comparing the output of a ordinary linear layer with CRF fine tuned linear layer
- CRF क्रमवारी लॉग शक्यता ही तोटा म्हणून वापरली जाते जी नेटवर्कचा (अनफ्रोझन सोडल्यास) आऊटपूट लोगीट उत्तम प्रकारे ऑप्टिमाइझ करते एक साधारण रेषीय लेयर पेक्षा जे साधारण रेषीय लोगीट च्या आऊटपूट ची CRF फाईन ट्यून रेषीय लेयर सोबत तुलना करून निश्चित केले जाऊ शकते.
सारांश:
ज्ञान आलेख हा Embibe च्या सर्व उत्पादनांचा कणा आहे. त्यामुळे ज्ञान आलेख पूर्ण करणे हे आमचे प्राथमिक कार्य आहे. या कामामुळे आम्हाला ज्ञान आलेख राखण्यासाठी आणि अतिशय कमी मानवी हस्तक्षेपाने वेगाने वाढविण्यामध्ये मदत झाली आहे.
या सरावामध्ये मॉडेल ला प्रशिक्षित केले गेले BERT वापरुन आणि माहितीवर प्रक्रिया, मॉडेलिंग आणि प्रमाणीकरण करण्यासाठी इतर तंत्रे वापरली गेली शैक्षणिकदृष्ट्या डिफ्रंशीएटेड फ्रेज एक्सट्रॅक्टर वापरला जात आहे मूळ शैक्षणिक मजकूरामधून महत्त्वाचे शैक्षणिक शब्द अधोरेखित करण्यासाठी आणि अशाप्रकारे, आपल्याकडे विविध स्त्रोता द्वारे दिलेल्या मजकूर रूपी महितीमधून संकल्पना शोधण्याची स्वयंचलित प्रक्रिया आहे
संदर्भ:
[1] डेव्हलल जेकब, मिंग-वेई चांग, केंटन ली, आणि क्रिस्टीना ततनोव्हा. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 (2018).
[2] झिहंग हुआंग, वेई क्झू, काई यू. Bidirectional LSTM-CRF Models for Sequence Tagging. arXiv preprint arXiv:1508.01991 (2015)
[3] विलियम कोनार आणि जॉन ट्र्रेनक. N-Gram-Based Text Categorization. In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (Las Vegas, US, 1994), pp. 161–175.