પર્સનલાઈઝ સર્ચ માટે રેન્ક મેળવવા માટે – લર્નિંગ
Embibe વિદ્યાર્થીઓને તેમના લર્નિંગ આઉટકમને સુધારવામાં મદદ કરે છે અને તેઓને જોઈતા કોન્ટેન્ટ સર્ચવાની મુખ્ય પદ્ધતિ એ મેનૂ-સંચાલિત નેવિગેશન સિસ્ટમને બદલે Embibe ના પર્સનલાઈઝ સર્ચ એન્જિનનો ઉપયોગ કરે છે. વેબ સર્ચમાં પ્રગતિ સાથે, યુઝર આજે અપેક્ષા રાખે છે કે સર્ચ પરિણામોના પ્રથમ પેજમાં તેઓ જે માહિતી શોધી રહ્યા છે તે ચોક્કસ માહિતી ધરાવે છે.
Embibe પર કોન્ટેન્ટનો જથ્થો વિશાળ છે અને તેમાં અભ્યાસ કોન્ટેન્ટ, વિડિયો, પ્રેક્ટિસ પ્રશ્નો, ટેસ્ટ, લેખો અને સમાચાર આઇટમ, સમગ્ર પરીક્ષાઓ, વિષયો, એકમો, પ્રકરણો, કોન્સેપ્ટનો સમાવેશ થાય છે. યુઝરને શક્ય તેટલી વધુ કાર્યક્ષમ રીતે કોન્ટેન્ટ આપવા માટે, સર્ચ પરિણામો વિજેટ સેટના સ્વરૂપમાં રજૂ કરવામાં આવે છે. દરેક વિજેટ સર્ચ પરિણામોમાંથી પુનઃપ્રાપ્ત પરિણામોના સંગ્રહનું સંબંધિત ક્રિયાયોગ્ય લિંક અને સંકળાયેલ નોલેજ ગ્રાફ નોડ્સ દ્વારા જૂથબદ્ધ પ્રતિનિધિત્વ કરે છે. Embibe પરના તમામ કોન્ટેન્ટ તેમની સાથે સંકળાયેલા વિવિધ વિજેટ પ્રકારો ધરાવે છે, અને સમૂહ-સ્તરની યુઝર લાક્ષણિકતાઓ સાથે, આ અમારા સર્ચ પ્લેસને ~120 મિલિયન ડોક્યુમેન્ટના સંયોજનમાં વિસ્તૃત કરે છે જેમાંથી પસંદ કરવા અને યુઝરને પરત કરવામાં આવે તે પહેલાં ક્રમાંકિત કરવામાં આવે છે. Embibe પર સર્ચ પરિણામો સાથે ઐતિહાસિક યુઝરની ક્રિયાપ્રતિક્રિયાનું વલણ વિશ્લેષણ દર્શાવે છે કે યુઝર પ્રથમ પૃષ્ઠ પર જ ટોચની વિજેટ સ્થિતિઓમાં સૌથી સુસંગત માહિતીની અપેક્ષા રાખે છે. આથી, પરિણામ વિજેટ્સનો ક્રમ અમારા યુઝર માટે સર્ચને વધુ આકર્ષક બનાવવા અને અમારા સર્ચ પરિણામોની ગુણવત્તા સુધારવામાં મહત્વપૂર્ણ ભૂમિકા ભજવે છે.
લર્નિંગ-ટુ-રેન્ક [1] એ નિરીક્ષિત મશીન લર્નિંગ સમસ્યા છે જેનો ઉપયોગ સર્ચ પરિણામો માટે આપમેળે રેન્કિંગ મોડલ બનાવવા માટે થઈ શકે છે. દરેક પ્રશ્ન માટે, બધા સંબંધિત ડોક્યુમેન્ટ એકત્રિત કરવામાં આવે છે. આ ડોક્યુમેન્ટની સુસંગતતા સામાન્ય રીતે માનવીય મૂલ્યાંકનો અથવા ચુકાદાઓના સ્વરૂપમાં તાલીમ ડેટા તરીકે પુરી પાડવામાં આવે છે. આ ડોક્યુમેન્ટની સુસંગતતાનો ઉપયોગ પછી લર્નિંગ-ટુ-રેન્ક મોડલને તાલીમ આપવા માટે કરવામાં આવે છે, જેમાં રેન્કિંગ પરિણામો અને સુસંગતતા ચુકાદા વચ્ચેના તફાવતને ઘટાડવાના ઑપ્ટિમાઇઝેશન ધ્યેય સાથે, તમામ પ્રશ્નો પરના સરેરાશ કાઢવામાં આવે છે.
આકૃતિ 1: Embibe ના પર્સનલાઈઝ કોન્ટેન્ટ સર્ચ એન્જિનના સંદર્ભમાં લર્નિંગ-ટુ-રેન્ક. યુઝર એ Embibe પર પર્સનલાઈઝ કોન્ટેન્ટ સર્ચ એન્જિન માટે પ્રશ્ન પેદા કરે છે. પરિણામો ઈલાસ્ટિકસર્ચ સમૂહમાંથી પુનઃપ્રાપ્ત કરવામાં આવે છે અને પ્રક્રિયા પછીના સ્તર પર મોકલવામાં આવે છે જે પરિણામોમાંથી વિજેટ સેટ બનાવે છે. યુઝર વ્યક્તિકરણ સ્તર યુઝર, પ્રશ્ન અને વિજેટ વિશેષતાઓના આધારે વિજેટ સેટને ફરીથી ક્રમ આપવા માટે લર્નિંગ-ટુ-રેન્ક મોડલનો ઉપયોગ કરે છે. લર્નિંગ-ટુ-રેન્ક મોડલ એ નિરીક્ષણ કરેલ મશીન લર્નિંગ મોડલ છે જે વિજેટ રેન્કિંગની સમસ્યાને પરિણામ વિજેટ્સ પર યુઝરની ક્લિક્સની આગાહી કરતી વખતે રજૂ કરે છે. મોડલને યુઝર દ્વારા કરવામાં આવેલ પ્રશ્નો સામે વિજેટ પર ઐતિહાસિક યુઝર ક્લિક્સનો ઉપયોગ કરીને તાલીમ આપવામાં આવે છે.
Embibe પરના પરિણામોને વિજેટ્સમાં જૂથબદ્ધ કરવામાં આવ્યા હોવાથી, જે પ્રથમ-ક્રમના પરિણામોથી ક્વેરી સુધી વિસ્તૃત થાય છે, તેથી વિજેટ્સ પર રેન્કિંગ કાર્ય પૂરું પાડવાની જરૂર છે. આથી, અમારા ઉપયોગના કિસ્સામાં, કોઈપણ પૂર્વ-અસ્તિત્વમાં રહેલું સર્ચ એન્જિન જે બિલ્ટ-ઇન લર્નિંગ-ટુ-રેન્ક કાર્યક્ષમતા પ્રદાન કરે છે, જેમ કે સ્થિતિસ્થાપક સર્ચ v6.0 ઉપરની તરફ, તે ઉકેલ પ્રદાન કરવામાં સમર્થ હશે નહીં. અમારું પર્સનલાઈઝ સર્ચ એન્જીન જે યુઝરના પ્રશ્નોના આધારે કોન્ટેન્ટ પૂરો પાડે છે, આવા 25 મહત્વના પરિબળોમાં યુઝર કોહર્ટ એસાઇન્મેન્ટ, ઐતિહાસિક સર્ચ વલણો, કોન્ટેન્ટ વપરાશ પેટર્ન, પરીક્ષા-આધારિત કોન્ટેન્ટ મહત્વ અને ભૂતકાળના યુઝરની ક્રિયાપ્રતિક્રિયાના આધારે પ્રથમ-ક્રમના પરિણામોને ક્રમાંકિત કરે છે.
જ્યારે આ અભિગમ સર્ચ પરિણામો પર ભૂતકાળના યુઝર ક્લિક ડેટાના આધારે સારી રીતે કાર્ય કરે છે, તે શંકા-આધારિત યુઝર ક્રિયાપ્રતિક્રિયા અથવા શંકા-ડોક્યુમેન્ટ અથવા શંકા-વિજેટ જોડીને રજૂ કરતું નથી, ખાસ કરીને અમારા ઉપયોગના-કેસમાં. ઉચ્ચ પરિમાણીય જગ્યામાં વપરાશકર્તા પ્રશ્નો અને તેમની સુસંગતતાને પ્રોજેક્ટ કરે છે. લર્નિંગ-ટુ-રેન્ક ફ્રેમવર્ક n-ડાયમેન્શનલ સ્પેસમાં શંકા સામે સેટ કરેલા પરિણામનું પ્રતિનિધિત્વ કરીને અને સમસ્યાને રીગ્રેસન અથવા વર્ગીકરણ જેવી મશીન લર્નિંગ સમસ્યામાં રૂપાંતરિત કરીને અથવા મૂલ્યાંકન મેટ્રિક્સને ઓપ્ટિમાઇઝ કરીને રેન્કિંગ કરીને આ ખામીને દૂર કરે છે.
સામાન્ય રીતે, લર્નિંગ-ટુ-રેન્ક અલ્ગોરિધમ પ્રશ્ન-ડોક્યુમેન્ટ જોડી અથવા યાદીઓ પર કામ કરે છે. અમારા કિસ્સામાં, દરેક પ્રશ્ન વિજેટ પ્રકારોના વિવિધ સેટ ઉત્પન્ન કરશે અને અમે યુઝર માટે રેન્કિંગને પર્સનલાઈઝ કરવા પણ ઈચ્છીએ છીએ, અમે વિશેષતાઓની ત્રણ શ્રેણીઓ ધ્યાનમાં લીધી છે; એટલે કે યુઝર, પ્રશ્ન અને વિજેટ. અમે યુઝરની પ્રોફાઇલ, પ્રશ્ન માહિતી અને પરિણામોમાંથી મેળવેલા ટોચના વિજેટ્સના સંયોજનમાંથી વિશેષતાઓનો ઉપયોગ કરીને યુઝર દ્વારા કરવામાં આવેલા દરેક પ્રશ્ન સામે અમારા ડેટાનું પ્રતિનિધિત્વ કરીએ છીએ. વિજેટ માટેની વિશેષતાઓમાં વિજેટનો પ્રકાર, વિજેટ વર્ટિકલ, ઐતિહાસિક બ્રાઉઝ, લોકપ્રિયતા, પ્રશ્ન શબ્દો વિજેટના નામ સાથે મેળ ખાય છે કે કેમ, વગેરેનો સમાવેશ થાય છે. પ્રશ્ન માટેની વિશેષતાઓમાં ચોક્કસ ઉદ્દેશ્ય શોધી કાઢવામાં આવ્યો હતો કે કેમ, પ્રશ્ન લંબાઈ, પ્રશ્ન, વગેરે શબ્દ આવર્તન-વિપરીત ડોક્યુમેન્ટની વિશેષતાઓનો સમાવેશ થાય છે. યુઝર વ્યક્તિકરણ માટે હિસાબ કરવા માટે, અમે યુઝર જોડાણ સમૂહ, યુઝર પ્રદર્શન સમૂહ, યુઝરનો પ્રાથમિક ધ્યેય, વગેરે જેવી યુઝર વિશેષતાઓનો પણ સમાવેશ કરીએ છીએ. અન્વેષણાત્મક ડેટા વિશ્લેષણ, સહસંબંધ મેટ્રિક્સનો અભ્યાસ, પરસ્પર માહિતી સ્કોર અને પરિમાણીયતામાં ઘટાડાનો ઉપયોગ કરીને બિનજરૂરી વિશેષતાઓ દૂર કરવામાં આવે છે.
અમે લર્નિંગ-ટુ-રેન્કના અનુમાનની સમસ્યા ઘટાડી દીધી છે જેમાં અમે યુઝર, પ્રશ્ન અને વિજેટ વિશેષતાઓને ધ્યાનમાં રાખીને ચોક્કસ વિજેટ પર યુઝરના ક્લિક સંભાવનાનું અનુમાન કરીએ છીએ. ઐતિહાસિક યુઝર પ્રશ્નો અને અનુગામી ક્લિક ક્રિયાપ્રતિક્રિયા ડેટાનો ઉપયોગ કરીને, અમે ક્લિક કરેલ સ્થાન અને ઉપરના વિજેટોને ધ્યાનમાં લઈએ છીએ. આ અમને ડેટા સેટનું પ્રમાણમાં સંતુલિત વિતરણ આપે છે કારણ કે ઐતિહાસિક રીતે, યુઝર ઉચ્ચ વિજેટ પર ક્લિક કરવાનું વલણ ધરાવે છે. વર્ગીકરણ અલ્ગોરિધમનો ઉપયોગ કરીને અમે વિજેટ પર ક્લિકના સંભાવનાનું અનુમાન કરી શકીએ છીએ, અને આ અભિગમ શરૂ કરવા માટે સારી આધારરેખા પુરી પાડે છે જ્યાંથી વધુ પુનરાવર્તનો માટે પરિણામોનું સરળતાથી અર્થઘટન કરી શકાય છે. અમે, તેથી, આ અભિગમ માટે અમારી પ્રથમ પસંદગી તરીકે લોજિસ્ટિક રીગ્રેશન પસંદ કર્યું.
અમારા પ્રયોગો માટે, કાર્ય એ આગાહી કરવાનું હતું કે આપેલ સ્થાન પરના વિજેટને યુઝર અને પ્રશ્ન નાં અમુક સંયોજન માટે ક્લિક કરવામાં આવશે કે નહીં. અમે બ્રાઉઝ લોકપ્રિયતા, પરીક્ષાનું વજન, ક્વેરી લંબાઈ, વગેરે જેવી માત્ર સંખ્યાત્મક વિશેષતાઓનો ઉપયોગ કરીને શરૂઆત કરી છે અને આનો આધારરેખા પ્રદર્શન તરીકે ઉપયોગ કરીએ છીએ. વિજેટ પ્રકાર, યુઝર સમૂહ, પ્રશ્ન ધ્યેયો, અને તેથી વધુ જેવા સ્પષ્ટ ડેટાને ઉન્નત વિશેષતા સમૂહમાં ઉમેરવાથી ક્લિક અનુમાન કાર્ય પર સચોટતા અને ચોકસાઈ બંનેમાં ~6% નો સુધારો થયો. ત્યારબાદ અમે પ્રશ્નોમાંથી કાઢેલ ટોચની 1,500 TF-IDF વિશેષતાઓ ઉમેરી, અને આનાથી મોડલની ચોકસાઈમાં ~1% સુધારો થયો જે દર્શાવે છે કે વધુ સારી કામગીરી માટે પ્રશ્નોમાંથી અન્ય લખાણ વિશેષતાઓ મેળવવાની જરૂર પડી શકે છે. આ અભિગમના પ્રદર્શનનો ઉપયોગ Embibe ના પર્સનલાઈઝ કોન્ટેન્ટ સર્ચ એન્જિન માટે લર્નિંગ-ટુ-રેન્ક પર વધુ પુનરાવૃત્તિઓ માટે આધારરેખા તરીકે કરવામાં આવશે.
સંદર્ભો:
- લિયુ ટી., “માહિતી પુનઃપ્રાપ્તિ માટે રેન્ક કરવાનું શીખવું.”, ફાઉન્ડેશન્સ એન્ડ ટ્રેન્ડ્સ® ઈન ઇન્ફોર્મેશન રિટ્રીવલ 3.3 (2009): 225-331.
- ક્રાસ્કોવ એ., સ્ટૉગબાઉર કે. અને ગ્રાસબર્ગર પી., “એસ્ટીમેંટિંગ મ્યુચલ ઇન્ફોર્મેશન.”, ફિઝિકલ રીવ્યુ E 69.6 (2004): 066138
- કોક્સ ડી.આર., “ધ રીગ્રેશન એનાલિસિસ ઓફ બાઈનરી સિક્વન્સ.”, જર્નલ ઓફ ધ રોયલ સ્ટેટિસ્ટિકલ સોસાયટી. શ્રેણી B (મેથોડોલોજિકલ) (1958): 215-242.