ડી-ડુપ્લિકેશન: એક ટેકનિકલ નિરીક્ષણ

એડટેક પ્લેટફોર્મ તરીકે, Embibe લર્નિંગ વસ્તુઓના વિશાળ પૂલને ક્યુરેટ કરે છે અને તેનું સંચાલન કરે છે જે વિદ્યાર્થીઓને તેમની લર્નિંગ આવશ્યકતાઓને પરિપૂર્ણ કરવા માટે સેવા આપી શકાય છે. આ કોન્ટેન્ટ પૂલ મુખ્યત્વે કોઈપણ શૈક્ષણિક કોન્સેપ્ટ સાથે યુઝરને શિક્ષિત કરવા માટે વિડિયો સમજાવનાર, ઇન્ટરેક્ટિવ લર્નિંગ ઘટકો જેવા કોન્ટેન્ટ ધરાવે છે. ઉપરાંત, તેમાં એવા પ્રશ્નો છે કે જેને ગેમિફાઇડ પ્રેક્ટિસ અને ટેસ્ટ અનુભવો આપવા માટે બુદ્ધિપૂર્વક એકસાથે બંડલ કરી શકાય છે. Embibe માં, પ્રેક્ટિસ અને ટેસ્ટ સ્ટોરીલાઇન હેઠળ યુઝર એંગેજમેન્ટ અમને નિર્ણાયક શૈક્ષણિક, વર્તણૂક, ટેસ્ટ-ટેકિંગ, ટેસ્ટ-લેવલ અને યુઝર પ્રયત્નો-સંબંધિત વિશિષ્ટતાઓ પુરી પાડે છે જે અમને યુઝરની યાત્રા ચલાવવામાં મદદ કરે છે અને વિદ્યાર્થીને તેમની મહત્તમ સંભાવનાને અનલૉક કરવામાં મદદ કરે છે. પ્રેક્ટિસ અને ટેસ્ટ વિશેષતાઓના મહત્વને જોતાં, અમે મહત્તમ યુઝર જોડાણ અને જાળવી રાખવામાં વિશ્વાસ રાખીએ છીએ.

ત્યાં વિવિધ સ્ત્રોતો છે જેના દ્વારા પ્રશ્નોનો પૂલ તૈયાર કરવામાં આવે છે – ઇન-હાઉસ ફેકલ્ટીઓ અને વિષય નિષ્ણાંતો, શૈક્ષણિક સલાહકારો અને અન્ય વિવિધ કર્મચારીઓ આ પ્રક્રિયામાં સામેલ છે. પૂલમાં પ્રખ્યાત પાઠ્યપુસ્તકો અને સંદર્ભ મટિરિયલના પ્રશ્નો પણ છે. મટિરિયલના પૂલને ચલાવવામાં અનેક સંસ્થાઓની સંડોવણી અને જોડાણને ચલાવવામાં કોન્ટેન્ટના મહત્વને જોતાં, કોન્ટેન્ટની ગુણવત્તા પર નજર રાખવી જરૂરી બની જાય છે. કોન્ટેન્ટ ક્યુરેશન સાથે માપ પર વિવિધ ગુણવત્તા-સંબંધિત મુદ્દાઓ સંકળાયેલા છે, જેમ કે કોન્ટેન્ટ ડુપ્લિકેશન, પ્રશ્નની સચોટતા સમસ્યાઓ, અપૂર્ણ પ્રશ્નો, અયોગ્ય મેટા ટેગિંગ, થોડા નામ. આ લેખમાં, અમે કોન્ટેન્ટ ડુપ્લિકેશનના મુદ્દા અને તેનો સામનો કરવા માટે Embibe માં ઉપયોગમાં લેવાતી બુદ્ધિશાળી સિસ્ટમની ચર્ચા કરીશું.

કોન્ટેન્ટ ડુપ્લિકેશન અને રિઝોલ્યુશન

સિસ્ટમમાં કોન્ટેન્ટ ડુપ્લિકેશન (ટેસ્ટ/પ્રેક્ટિસ પ્રોબ્લમ/પ્રશ્નો) એ એવા મુદ્દાઓમાંથી એક છે જે યુઝરના એન્ગેજમેન્ટ ને પ્રતિકૂળ અસર કરે છે. વધુ સારી રીતે સમજવા માટે, તેની સરખામણી “ફેસબુક અથવા ઇન્સ્ટાગ્રામ સાથે કરી શકાય છે જ્યારે યુઝર સ્ક્રોલ કરવામાં વ્યસ્ત હોય ત્યારે તે જ વિડિઓ/ઇમેજને પુનરાવર્તિત રીતે પ્રદર્શિત કરે છે; તે સ્વીકારો, તે યુઝરની એન્ગેજમેન્ટને અવરોધે છે, અને સૌથી ખરાબ રીતે યુઝર હમેંશા માટે પ્લેટફોર્મમાંથી બહાર નીકળી શકે છે.” તેવી જ રીતે, જો સમાન પ્રેક્ટિસ અથવા પરીક્ષણ સત્રોમાં વિદ્યાર્થીને સમાન પ્રશ્ન આપવામાં આવે છે, તો તે ચોક્કસપણે યુઝરના ડ્રોપ-ઓફમાં ફાળો આપશે.

Embibe માં, આ મુદ્દાને ઉકેલવા માટે, અમે એક હાઇબ્રિડ અભિગમનો ઉપયોગ કર્યો છે જે પ્રશ્નોના ડુપ્લિકેટને ઓળખવા માટે સિન્ટેક્સ (સંપાદિત-અંતર) આધારિત સ્ટેપ અને ડીપ લર્નિંગ-આધારિત (રેસનેટ-18 કન્વેનશનલ ન્યુરલ નેટવર્ક આર્કિટેક્ચર) ડેન્સ વેક્ટર સમાનતાને સમાવે છે. ડિ-ડુપ્લિકેશન પાઇપલાઇનને અમલમાં મૂકવા માટે અમે ઇલાસ્ટિકસર્ચની (લ્યુસીન) મેઈન કાર્યક્ષમતાઓનો ઉપયોગ કરીએ છીએ જેમ કે લખાણ કોન્ટેન્ટ પર પૂર્ણ-લખાણ પ્રશ્ન અને તાજેતરની સ્ક્રિપ્ટ સ્કોર પ્રશ્ન ડેન્સ વેક્ટર ક્ષેત્રો વગેરે. અમારા લર્નિંગ ઓબ્જેક્ટ(પ્રશ્નો)માં લખાણ (પ્રશ્ન ટેક્સ્ટ, જવાબ ટેક્સ્ટ) તેમજ ઇમેજ/ચિત્ર માહિતી (આકૃતિઓ, વગેરે) શામેલ છે અને પાઇપલાઇન મટીરીયલ પૂલમાંથી ચોક્કસ ડુપ્લિકેટ સમકક્ષોને ઓળખવા માટે તે બંનેને ધ્યાનમાં લે છે. અમે સિસ્ટમમાં ડુપ્લિકેટ પ્રશ્નોના નિર્માણ અને ઇન્જેશનને રોકવા માટે સમાન અભિગમની આસપાસ આવરિત રીઅલ-ટાઇમ ઉપયોગિતાને પણ સક્ષમ કરી છે; તે ડુપ્લિકેશન માટે ગેટ-કીપિંગ જેવું કામ કરે છે. નોલેજ અવેર મોડલનો ઉપયોગ કરીને અને ડીપ લર્નિંગ મોડલમાંથી અર્થઘટન કરી શકાય તેવી માહિતીનો ઉપયોગ કરીને લખાણ ની સિમેન્ટીક સમાનતાને વધુ વધારી શકાય છે. સમજાવી શકાય તેવા મૉડલ પરિણામો પર આધાર રાખવા માટે શિક્ષણવિદોમાં વિશ્વાસ વધારી શકે છે.

અમે નીચે દર્શાવવામાં આવેલ ડેટા ફ્લો ડાયાગ્રામ દ્વારા આ પાઇપલાઇનનો સારાંશ આપવાનો પ્રયાસ કરીએ છીએ:

થ્રેશોલ્ડ પસંદગી:

કોન્ટેન્ટ ડિ-ડુપ્લિકેશન પાઇપલાઇન માટે, થ્રેશોલ્ડ પસંદગી/ટ્યુનિંગ સમસ્યાનું મૂળ છે. તે ડુપ્લિકેટ પ્રશ્નોમાંથી સમાન અને બિન-ડુપ્લિકેટ પ્રશ્નોને અલગ કરવામાં મદદ કરે છે. અહીં, યોગ્ય થ્રેશોલ્ડને ઓળખવા માટે, અમે લેબલ થયેલ ડેટાસેટ તૈયાર કરવા વિષય નિષ્ણાંતોની મદદ લીધી છે, જ્યાં તેમને એન્કર પ્રશ્ન અને ઉમેદવારોની યાદી આપવામાં આવી છે. તેઓને જોડીને ડુપ્લિકેટ અથવા નોટ-ડુપ્લિકેટ તરીકે માર્ક કરવાનું કહેવામાં આવ્યું હતું. ઉમેદવાર જનરેશન માટે, ઈમેજ ડેન્સ વેક્ટર પર ઈલાસ્ટિકસર્ચની ફુલ-ટેક્સ્ટ ક્વેરી અને સ્ક્રિપ્ટ સ્કોર ક્વેરીનો ઉપયોગ કરીને કોન્ટેન્ટ પૂલમાંથી ટોપ k ઉમેદવારોની પસંદગી કરવામાં આવી હતી.

હવે, યોગ્ય થ્રેશોલ્ડ મૂલ્ય પસંદ કરવા માટે, લેબલ કરેલ ડેટાસેટ સામે મહત્તમ ચોકસાઈ સ્કોર ઉદ્દેશ્ય સાથે વિવિધ થ્રેશોલ્ડ મૂલ્યો (શ્રેણી: 0.5 થી 1.0, સ્ટેપ-સાઈઝ: 0.05) પર ગ્રીડ સર્ચનો ઉપયોગ કરવામાં આવ્યો હતો. અહીં એન્કર પ્રશ્નો માટે ટોચના k ઉમેદવારો જનરેટ કરવામાં આવ્યા હતા અને ચોકસાઈ નંબરો વિવિધ થ્રેશોલ્ડ મૂલ્યો પર લેવામાં આવ્યા હતા. સમાનતા સ્કોર થ્રેશોલ્ડ જે મહત્તમ ચોકસાઈ આપે છે તે અંતિમ થ્રેશોલ્ડ મૂલ્ય તરીકે પસંદ કરવામાં આવ્યું હતું.

બેન્ચમાર્કિંગ પ્રક્રિયા

હોલ્ડ-આઉટ લેબલવાળા સેટની સામે, ઉલ્લેખિત ડુપ્લિકેટ ઓળખ પ્રક્રિયાનું બેન્ચમાર્કિંગ કરવામાં આવ્યું છે. નીચેના કોષ્ટકમાં વિશિષ્ટતાઓનો ઉલ્લેખ છે:

ડેટા	માપ સુયોજિત કરો	ચોકસાઈ (યોગ્ય રીતે ચિહ્નિત)
લેબલ કરેલ પ્રશ્નની જોડી જેમાં શામેલ છે: ફક્ત લખાણ, લખાણ + ઇમેજ, ફક્ત ઇમેજ	5114	83.1% (4250)
લેબલ કરેલ પ્રશ્નની જોડી જેમાં સમાવિષ્ટ છે: લખાણ + ઇમેજ, માત્ર ઇમેજ	2710	80.1% (2193)

નિષ્કર્ષ અને ભવિષ્યનું કાર્ય

ઘણા મશીન લર્નિંગ કાર્યોમાં 80% + સચોટતા પૂરતી હોવા છતાં, Embibe જે માપ પર કાર્ય કરે છે તેને મેન્યુઅલ વેરિફિકેશનને વધુ ઘટાડવા માટે વધુ સચોટ મોડલની જરૂર છે. સિમેન્ટીક સમાનતા આધારિત ટેક્સ્ટ માઇનિંગમાં વર્તમાન વિકાસ સાથે, Embibe 90%+ ચોકસાઈના લક્ષ્ય સાથે ગાઢ વેક્ટર (ઇમેજ અને લખાણ એમ્બેડિંગ) આધારિત મટીરીયલ સમાનતા અલ્ગોરિધમ વિકસાવી રહી છે.

સંદર્ભ

[1] ફાલદુ, કેયુર, અમિત શેઠ, પ્રશાંત કિકાણી અને હેમાંગ અકબરી. “KI-BERT: વધુ સારી ભાષા અને ડોમેન સમજણ માટે નોલેજ સંદર્ભનો સમાવેશ.” arXiv preprint arXiv:2104.08145 (2021).

[2] ગૌર, માનસ, કેયુર ફાલદુ અને અમિત શેઠ. “બ્લેક-બોક્સના અર્થશાસ્ત્ર: શું નોલેજ ગ્રાફ ડીપ લર્નિંગ સિસ્ટમને વધુ અર્થઘટન કરી શકાય અને સમજાવી શકાય તેવું બનાવવામાં મદદ કરી શકે છે?.” IEEE ઇન્ટરનેટ કમ્પ્યુટિંગ 25, નં. 1 (2021): 51-59.

[3] ગૌર, માનસ, અંકિત દેસાઈ, કેયુર ફાલદુ અને અમિત શેઠ. “નોલેજ ગ્રાફ્નો ઉપયોગ કરીને સમજાવી શકાય તેવું AI.” ACM CoDS-COMAD કોન્ફરન્સમાં. 2020.

ડી-ડુપ્લિકેશન: એક ટેકનિકલ નિરીક્ષણ