નોલેજ ગ્રાફ નોડ્સનું સ્વયંસંચાલિત સર્ચ
પરિચય:
Embibe નો નોલેજ ગ્રાફ એ એક અભ્યાસક્રમ-અજ્ઞેયાત્મક બહુ-પરિમાણીય આલેખ છે જેમાં 75,000+ થી વધુ નોડ્સનો સમાવેશ થાય છે, દરેક શૈક્ષણિક જ્ઞાનના એક અલગ એકમનું પ્રતિનિધિત્વ કરે છે, જેને કોન્સેપ્ટ પણ કહેવાય છે અને તેમની વચ્ચેના સેંકડો હજારો ઇન્ટરકનેક્શન દર્શાવે છે કે કેવી રીતે કોન્સેપ્ટ સ્વતંત્ર નથી પરંતુ તેના બદલે અન્ય કોન્સેપ્ટ સાથે સંબંધિત છે
જેમ જેમ Embibe તેના કોન્ટેન્ટને વિસ્તૃત કરે છે તેમ, નોલેજ ગ્રાફ પણ સતત વિકસિત થઈ રહ્યો છે. ઐતિહાસિક રીતે, તે ગ્રાફના ભાગોને ક્યુરેટ કરવા માટે સ્માર્ટ ઓટોમેશન સાથે નિષ્ણાંત શિક્ષકોના મેન્યુઅલ પ્રયાસનો ઉપયોગ કરીને બનાવવામાં આવ્યું છે. જો કે, Embibe સંશોધનમાં રોકાણ કરી રહી છે જેનો ઉદ્દેશ્ય ગ્રાફના નવા નોડ્સને આપમેળે શોધવાનો છે અને શૈક્ષણિક જ્ઞાન સ્પેક્ટ્રમના હજી વધુ ભાગોને આવરી લેવા માટે ગ્રાફને વિસ્તૃત કરવાનો છે. શિક્ષણક્ષેત્રના અલગ શબ્દસમૂહ એક્સટ્રેક્ટર અમને લેબલવાળા ડેટા સેટ અને BERT આધારિત મોડલનો ઉપયોગ કરીને નોલેજ ગ્રાફમાં નવા નોડ્સ શોધવા માટે સક્ષમ બનાવે છે અને અમને તે શબ્દસમૂહોના શબ્દસમૂહો અને સુસંગતતા સ્તરો આપે છે.
શૈક્ષણિક રીતે અલગ શબ્દસમૂહ એક્સટ્રેક્ટર:
શૈક્ષણિક રીતે અલગ શબ્દસમૂહ એક્સટ્રેક્ટર (ADPE), એ શૈક્ષણિક બુકમાંથી ટેક્સ્ટના મહત્વના સ્પેન્સનું સ્વયંસંચાલિત રેખાંકન છે, જે પુસ્તક વાંચતી વખતે વિદ્યાર્થી કેવી રીતે મહત્વપૂર્ણ કોન્સેપ્ટને રેખાંકિત કરે છે તેના અનુરૂપ છે. તેનો પ્રાથમિક ઉદ્દેશ્ય અસંરચિત લખાણમાંથી કોન્સેપ્ટ કાઢવાનો છે, જે પૂર્વધારણા દ્વારા ચલાવવામાં આવે છે કે કોન્સેપ્ટના કોન્સેપ્ટને બુકના લખાણના સબ સ્પાન તરીકે ઓળખી શકાય છે.
કી-ફ્રેઝ એક્સટ્રેક્શન અને નામવાળી અસ્તિત્વ માન્યતા પર વ્યાપક કાર્ય છે. જો કે, શૈક્ષણિક બુકમાંથી કોન્સેપ્ટનું સ્વયંસંચાલિત નિષ્કર્ષણ એ એક પડકારજનક કાર્ય છે જેણે મર્યાદિત કવરેજ જોયું છે. વ્યાખ્યા દ્વારા કોન્સેપ્ટ નિષ્કર્ષણ, પ્રકૃતિમાં સંપૂર્ણ છે, એટલે કે તમામ કોન્સેપ્ટને કાઢવાની જરૂર છે, જે પ્રકરણના સંકલ્પના વંશવેલોનો ભાગ છે, પ્રકરણના સંદર્ભમાં તેમની સહઘટના અને સુસંગતતાનું વર્ણન કરે છે. તે મુખ્ય-વાક્યના નિષ્કર્ષણથી અલગ છે કારણ કે બાદમાં લેખનું વર્ણન કરતા ટોપ-એન કીવર્ડ પર ધ્યાન કેન્દ્રિત કરે છે, જરૂરી નથી કે સુસંગતતાના કોઈપણ અર્થપૂર્ણ વંશવેલામાં હોય. વધુમાં, તે નામવાળી એન્ટિટી નિષ્કર્ષણથી પણ અલગ છે કારણ કે પછીનું કાર્ય પૂર્વ-નિર્દિષ્ટ વર્ગો (દા.ત.: સ્થાન, વ્યક્તિ, ORG) માંથી સામાન્ય રીતે ટૂંકા ગ્રંથોમાંથી એકમના વ્યક્તિગત ઉદાહરણો કાઢવા પર ધ્યાન કેન્દ્રિત કરે છે, જેમ કે વાક્યની વિરુદ્ધમાં સિમેન્ટીક વંશવેલો જરૂરી નથી. અમારો ધ્યેય અનન્ય, સંબંધિત કોન્સેપ્ટ કાઢવાનો છે. અમે ક્લાસિકલ મશીન લર્નિંગ અને ડીપ લર્નિંગ-આધારિત દેખરેખ/નિરીક્ષણ તકનીકોનો ઉપયોગ કરીને આવા કાર્ય ફોર્મ્યુલેશન દ્વારા પ્રેરિત ઑન્ટોલોજી-આધારિત કોન્સેપ્ટ નિષ્કર્ષણ માટેના અભિગમો રજૂ કરીએ છીએ.
સંશોધન અભિગમો:
અમારા પ્રયોગો ADPE ડેટાસેટ પર પ્રદર્શન સુધારવા માટે અત્યાધુનિક ડીપ લર્નિંગ ટેકનિકનો લાભ લે છે, જેમ કે બે પ્રાઈમરીમાં BERT (બાયડાયરેક્શનલ એન્કોડર રિપ્રેઝેન્ટેશન ફ્રોમ ટ્રાન્સફોર્મર), LSTM (લોંગ શોર્ટ-ટર્મ મેમરી), CNNs (કન્વોલ્યુશનલ ન્યુરલ નેટવર્ક) વર્ગીકરણ ફોર્મ્યુલેશન. પ્રથમ નામની એન્ટિટી રેકોગ્નાઈઝેશન માટે સિક્વન્સ ટૅગિંગ છે અને બીજું n-ગ્રામ વર્ગીકરણ છે જે આંકડાકીય, સિમેન્ટીક, નેચરલ લેંગ્વેજ પ્રોસેસિંગ, ટેક્સ્ટ ફીચર અને ડીપ ન્યુરલ નેટવર્કનો ઉપયોગ કરીને વર્ગીકરણ સાથે ઉમેદવાર n-ગ્રામ જનરેટ કરે છે.
અમે વૈજ્ઞાનિક સામયિકો અને બુક પ્રકરણો પર સંવર્ધિત શબ્દભંડોળ અને ફાઈન ટ્યુન સાથે BERT અનકેસ્ડ મોડલનો લાભ લઈએ છીએ. આગળ, ઇનપુટ ટેક્સ્ટમાંથી કોન્સેપ્ટ શોધવા માટે તમામ એન્કોડર સ્તરોની રજૂઆતોને અવરોધિત-સંક્રમણ (BIO એન્કોડિંગ) CRF (શરતી રેન્ડમ ફીલ્ડ) ક્રમિક ટેગરમાં આપવામાં આવે છે.
શા માટે CRF (કંડિશનલ રેન્ડમ ફીલ્ડ):
- CRF ક્રમની લોગ સંભાવનાને મહત્તમ કરે છે અને અનુક્રમ ટૅગની મહત્તમ સંભાવના અંદાજ બનાવે છે.
- CRF ની મર્યાદાઓ એ સુનિશ્ચિત કરે છે કે લેબલ એન્કોડિંગ દ્વારા નિયુક્ત કર્યા મુજબ માત્ર માન્ય મલ્ટિગ્રામ સિક્વન્સ લેબલ જ જનરેટ થાય છે – (દા.ત.: BIO એન્કોડિંગ ક્રમમાં એન્ટિટી સેગ્મેન્ટેશનની બાંયધરી આપે છે પરંતુ તેમાં કેટલાક વ્યાકરણ નિયમો છે જે પૂર્ણ કરવા આવશ્યક છે)
- CRF અનુક્રમિક લોગની સંભાવનાનો ઉપયોગ નુકસાન તરીકે થાય છે જે સામાન્ય રેખીય સ્તર કરતાં નેટવર્કના (જો સ્થિર છોડવામાં આવે તો) આઉટપુટ લોગિટ્સને વધુ સારી રીતે ઑપ્ટિમાઇઝ કરે છે કારણ કે સામાન્ય રેખીય સ્તરના આઉટપુટની CRF ફાઇન ટ્યુન કરેલ રેખીય સ્તર સાથે સરખામણી કરીને પુષ્ટિ કરી શકાય છે.
સારાંશ:
નોલેજ ગ્રાફ એ Embibe ની તમામ પ્રોડક્ટ માટે કરોડરજ્જુ છે. તેથી જ્ઞાન આલેખ પૂર્ણ કરવું એ આપણું પ્રાથમિક કાર્ય છે. આ કાર્યથી અમને નોલેજ ગ્રાફ જાળવવામાં અને અત્યંત ન્યૂનતમ મેન્યુઅલ હસ્તક્ષેપ સાથે તેને ઝડપથી વિસ્તારવામાં મદદ મળી.
આ તાલીમમાં મોડેલને BERT નો ઉપયોગ કરીને તાલીમ આપવામાં આવે છે અને ડેટા પ્રોસેસિંગ, મોડેલિંગ અને માન્યતા માટે અન્ય તકનીકોનો ઉપયોગ કરવામાં આવે છે. એકેડેમિકલી ડિફરન્શિએટેડ ફ્રેઝ એક્સટ્રેક્ટરનો ઉપયોગ કાચા શૈક્ષણિક વિષયમાંથી મહત્વપૂર્ણ શૈક્ષણિક શબ્દોને રેખાંકિત કરવા માટે કરવામાં આવે છે અને આ રીતે, અમે વિવિધ સ્રોતોમાંથી આપેલ ટેક્સ્ટ્યુઅલ ડેટામાંથી કોન્સેપ્ટ શોધવાની પ્રક્રિયાને ઓટોમેટિક કરી છે.
સંદર્ભ:
[1] ડેવલિન જેકબ, મિંગ-વેઇ ચાંગ, કેન્ટન લી અને ક્રિસ્ટીના ટૌટાનોવા. બર્ટ: ભાષાની સમજણ માટે ઊંડા દ્વિદિશ ટ્રાન્સફોર્મર્સની પૂર્વ-તાલીમ. arXiv preprint arXiv:1810.04805 (2018).
[2] ઝિહેંગ હુઆંગ, વેઇ ઝુ, કાઇ યુ. સિક્વન્સ ટૅગિંગ માટે બાયડાયરેક્શનલ LSTM-CRF મોડલ. arXiv preprint arXiv:1810.04805 (2018).
[3] વિલિયમ કેવનાર અને જ્હોન ટ્રેન્કલ. એન-ગ્રામ-આધારિત ટેક્સ્ટ વર્ગીકરણ. SDAIR-94ની કાર્યવાહીમાં, દસ્તાવેજ વિશ્લેષણ અને માહિતી પુનઃપ્રાપ્તિ પર 3જી વાર્ષિક સિમ્પોઝિયમ (લાસ વેગાસ, યુએસ, 1994), પૃષ્ઠ 161-175.
[4] ગૌર, માનસ, કીયુર ફાલ્દુ અને અમિત શેઠ. “બ્લેક-બોક્સના અર્થશાસ્ત્ર: શું જ્ઞાન ગ્રાફ ડીપ લર્નિંગ સિસ્ટમ્સને વધુ અર્થઘટન અને સમજાવી શકાય તેવું બનાવવામાં મદદ કરી શકે છે?.” IEEE ઇન્ટરનેટ કમ્પ્યુટિંગ 25, નં. 1 (2021): 51-59.