लर्निंग-पर्सनलाइज्ड सर्चसाठी रँक मिळवणे

लर्निंग-पर्सनलाइज्ड सर्चसाठी रँक मिळवणे

Embibe विद्यार्थ्यांना त्यांचे लर्निंग आऊटकम सुधारण्यास मदत करते आणि त्यांना आवश्यक असलेले कॉन्टेन्ट सर्च करण्याची मुख्य पद्धत म्हणजे मेनू-ड्राइव्ह नेव्हिगेशन सिस्टीमऐवजी Embibe चे पर्सनलाइज्ड सर्च इंजिन वापरणे. वेब सर्चमधील प्रगतीमुळे, आज यूजर्स सर्च रिझल्टच्या पहिल्या पेजवर ते सर्च करत असलेल्या माहितीचा अचूक भाग असावा अशी अपेक्षा करतात.

Embibe वरील कॉन्टेन्टचे प्रमाण प्रचंड आहे आणि त्यात अभ्यासाचे कॉन्टेन्ट, व्हिडिओ, प्रॅक्टिस प्रश्न, टेस्ट, आर्टिकल्स आणि बातम्या या सर्व परीक्षा, विषय, युनिट्स, धडे, कॉन्सेप्ट यांचा समावेश आहे. यूजर्सना शक्य तितकी क्रिया करण्यायोग्य कॉन्टेन्ट उघड करण्यासाठी, सर्च रिझल्ट विजेट सेटच्या स्वरूपात सादर केले जातात. प्रत्येक विजेट सर्च रिझल्टमधून पुनर्प्राप्त केलेल्या रिझल्टच्या संग्रहाचे प्रतिनिधित्व करते, संबंधित कृती करण्यायोग्य जेंडर आणि संबंधित नॉलेज ग्राफच्या नोड्सद्वारे एकत्रित केले जाते. Embibe वरील सर्व कॉन्टेन्टमध्ये त्यांच्याशी संबंधित विविध विजेट प्रकार आहेत आणि समूह-स्तरीय यूजर वैशिष्ट्यांसह, हे आमचे सर्च स्थान ~120 दशलक्ष दस्तऐवजांच्या संयोजनात विस्तृत करते ज्यातून निवडले जावे आणि युजरला परत केले जाण्यापूर्वी रँक केले जाईल. Embibe वरील शोध परिणामांसह ऐतिहासिक युजरच्या परस्परसंवादाचे ट्रेंड विश्लेषण दर्शविते की यूजर पहिल्या पेजवरच शीर्ष विजेट स्थानांवर सर्वात संबंधित माहितीची अपेक्षा करतात. त्यामुळे, आमच्या युजसाठी सर्च करणे अधिक आकर्षक बनवण्यात आणि आमच्या सर्च रिझल्टची गुणवत्ता सुधारण्यात रिझल्ट विजेट्सचा क्रम महत्त्वाची भूमिका बजावतो.

लर्निंग-टू-रँक [१] ही एक पर्यवेक्षित मशीन लर्निंग समस्या आहे जी सर्च रिझल्टसाठी स्वयंचलितपणे रँकिंग मॉडेल तयार करण्यासाठी वापरली जाऊ शकते. प्रत्येक शंकेसाठी, सर्व संबंधित डॉक्युमेंट गोळा केली जातात. या डॉक्युमेंटची प्रासंगिकता सामान्यतः मानवी मूल्यांकन किंवा निर्णयांच्या स्वरूपात ट्रेनिंग डेटा म्हणून प्रदान केली जाते. या डॉक्युमेंटची प्रासंगिकता नंतर सर्व प्रश्नांच्या सरासरीनुसार रँकिंग रिझल्ट आणि प्रासंगिकता निर्णय यांच्यातील फरक कमी करण्याच्या ऑप्टिमायझेशन लक्ष्यासह लर्निंग-टू-रँक मॉडेलला प्रशिक्षित करण्यासाठी वापरली जाते.

आकृती 1: Embibe च्या पर्सनलाइज्ड कॉन्टेन्ट डिस्कव्हरी इंजिनच्या संदर्भात लर्निंग-टू-रँक. Embibe वरील पर्सनलाइज्ड कॉन्टेन्ट सर्च इंजिनसाठी युजर शंका विचारतात. रिझल्ट इलास्टिकसर्च क्लस्टरमधून पुनर्प्राप्त केले जातात आणि पोस्ट-प्रोसेसिंग लेयरमध्ये दिले जातात जे रिझल्टमधून विजेट सेट तयार करतात. युजर वैयक्तिकरण स्तर युजर, शंका आणि विजेट वैशिष्ट्यांवर आधारित विजेट संच पुन्हा-रँक करण्यासाठी लर्निंग-टू-रँक मॉडेल वापरतो. लर्निंग-टू-रँक मॉडेल हे एक पर्यवेक्षित मशीन लर्निंग मॉडेल आहे जे विजेट रँकिंग समस्या रिझल्ट विजेट्सवर युजरच्या क्लिक्सचा अंदाज लावते. मॉडेलला वापरकर्त्याने केलेल्या प्रश्नांविरुद्ध विजेट्सवर ऐतिहासिक युजर क्लिक वापरून प्रशिक्षण दिले जाते.

Embibe वरील रिझल्ट विजेट्समध्ये गटबद्ध केले जातात, जे पहिल्या क्रमावरील असेलल्या रिझल्टपासून ते शंकांपर्यंत विस्तारित केले जातात, विजेट्सवर रँकिंग फंक्शन लागू करणे आवश्यक आहे. त्यामुळे, आमच्या वापराच्या बाबतीत, Elasticsearch v6.0 प्रमाणे अंगभूत लर्निंग-टू-रँक कार्यक्षमता प्रदान करणारे कोणतेही पूर्व-अस्तित्वात असलेले सर्च इंजिन, समाधान प्रदान करू शकणार नाही. आमचे पर्सनलाइज्ड सर्च इंजिन जे युजरच्या प्रश्नांवर आधारित कॉन्टेन्ट प्रदान करते, युजर कोहोर्ट असाइनमेंट, ऐतिहासिक सर्च ट्रेंड, कॉन्टेन्ट वापर नमुने, परीक्षेवर आधारित कॉन्टेन्टचे महत्त्व आणि भूतकाळातील युजरचा परस्परसंवाद यावर आधारित पहिल्या क्रमावरील आलेय रिझल्टची क्रमवारी लावते.

हा दृष्टीकोन शोध परिणामांवरील मागील वापरकर्त्याच्या क्लिक डेटावर आधारित चांगला कार्य करत असला तरी, तो क्वेरी-आधारित वापरकर्ता परस्परसंवाद किंवा क्वेरी-दस्तऐवज किंवा विशेषत: आमच्या वापर-केसमध्ये, क्वेरी-विजेट जोड्यांचे उच्च आयामी जागेत प्रतिनिधित्व करत नाही आणि त्यांचे प्रोजेक्ट करत नाही. वापरकर्त्याच्या प्रश्नांशी सुसंगतता. लर्निंग-टू-रँक फ्रेमवर्क एन-डायमेंशनल स्पेसमधील क्वेरीच्या विरूद्ध सेट केलेल्या निकालाचे प्रतिनिधित्व करून आणि प्रतिगमन किंवा वर्गीकरण यासारख्या मशीन लर्निंग समस्येमध्ये रूपांतरित करून किंवा मूल्यांकन मेट्रिक्स ऑप्टिमाइझ करून रँकिंग शिकून ही कमतरता दूर करते.

सहसा, लर्निंग-टू-रँक अल्गोरिदम क्वेरी-दस्तऐवज जोड्या किंवा सूचींवर कार्य करतात. आमच्या बाबतीत, प्रत्येक क्वेरी विजेट प्रकारांचे वेगवेगळे संच तयार करत असल्याने आणि आम्ही वापरकर्त्यांसाठी क्रमवारी व्यक्तिनिष्ठ करू इच्छितो, आम्ही वैशिष्ट्यांच्या तीन श्रेणींचा विचार केला आहे; म्हणजे वापरकर्ता, क्वेरी आणि विजेट. आम्ही वापरकर्ता प्रोफाइल, क्वेरी माहिती आणि परिणामांमधून पुनर्प्राप्त केलेल्या शीर्ष विजेट्सच्या संयोजनातील वैशिष्ट्यांचा वापर करून वापरकर्त्याने केलेल्या प्रत्येक क्वेरीवर आमचा डेटा प्रस्तुत करतो. विजेटच्या वैशिष्ट्यांमध्ये विजेटचा प्रकार, विजेट अनुलंब, ऐतिहासिक ब्राउझ लोकप्रियता, क्वेरी संज्ञा विजेटच्या नावाशी जुळतात का, इ. क्वेरीच्या वैशिष्ट्यांमध्ये विशिष्ट हेतू आढळला की नाही, क्वेरीची लांबी, टर्म वारंवारता-विपरीत दस्तऐवज वारंवारता वैशिष्ट्ये समाविष्ट आहेत. क्वेरी, इ. वापरकर्ता वैयक्तिकरणासाठी खाते करण्यासाठी, आम्ही वापरकर्ता प्रतिबद्धता समूह, वापरकर्ता कार्यप्रदर्शन समूह, वापरकर्त्याचे प्राथमिक ध्येय इत्यादीसारख्या वापरकर्ता वैशिष्ट्ये देखील समाविष्ट करतो. एक्सप्लोरेटरी डेटा विश्लेषण, सहसंबंध मॅट्रिक्स, परस्पर माहिती स्कोअरचा अभ्यास करून अनावश्यक वैशिष्ट्ये काढून टाकली जातात. [2] आणि आयाम कमी करणे.

आम्ही लर्निंग-टू-रँक एका अंदाज समस्येवर कमी केला आहे ज्यामध्ये आम्ही वापरकर्ता, क्वेरी आणि विजेट वैशिष्ट्ये लक्षात घेऊन विशिष्ट विजेटवर वापरकर्त्याच्या क्लिक संभाव्यतेचा अंदाज लावतो. ऐतिहासिक वापरकर्ता क्वेरी आणि त्यानंतरच्या क्लिक संवाद डेटाचा वापर करून, आम्ही क्लिक केलेल्या स्थानावर आणि वरच्या विजेट्सचा विचार करतो. हे आम्हाला डेटा सेटचे तुलनेने संतुलित वितरण देते कारण ऐतिहासिकदृष्ट्या, वापरकर्ते उच्च विजेट्सवर क्लिक करतात. वर्गीकरण अल्गोरिदम वापरून आम्ही विजेटवरील क्लिकच्या संभाव्यतेचा अंदाज लावू शकतो आणि हा दृष्टीकोन एक चांगला आधाररेखा प्रदान करतो जिथे पुढील पुनरावृत्तीसाठी परिणाम सहजपणे स्पष्ट केले जाऊ शकतात. आम्ही, म्हणून, या दृष्टिकोनासाठी आमची पहिली निवड म्हणून लॉजिस्टिक रिग्रेशन [३] निवडले.

आमच्या प्रयोगांसाठी, दिलेल्या स्थानावरील विजेट क्लिक केले जाईल की नाही याचा अंदाज लावणे हे कार्य वापरकर्ता आणि क्वेरीच्या काही संयोजनासाठी होते. आम्ही ब्राउझ लोकप्रियता, परीक्षेचे वजन, प्रश्नांची लांबी इ. यासारख्या केवळ संख्यात्मक वैशिष्ट्यांचा वापर करून सुरुवात केली आणि बेसलाइन कामगिरी म्हणून याचा वापर केला. वर्धित वैशिष्ट्य सेटमध्ये विजेट प्रकार, वापरकर्ता समूह, क्वेरी उद्दिष्टे आणि यासारखे स्पष्ट डेटा जोडल्याने क्लिक प्रेडिक्शन टास्कमध्ये अचूकता आणि अचूकता दोन्हीमध्ये ~6% ची सुधारणा झाली. आम्ही नंतर क्वेरींमधून काढलेली शीर्ष 1,500 TF-IDF वैशिष्ट्ये जोडली आणि यामुळे मॉडेलची अचूकता ~1% ने सुधारली जे सूचित करते की चांगल्या कार्यक्षमतेसाठी क्वेरीमधून इतर मजकूर वैशिष्ट्ये काढण्याची आवश्यकता असू शकते. Embibe च्या व्यक्तिनिष्ठ साहित्य शोध इंजिनसाठी लर्निंग-टू-रँकवरील पुढील संशोधन पुनरावृत्तीसाठी या दृष्टिकोनाची कामगिरी बेसलाइन म्हणून वापरली जाईल.

संदर्भ:

  1. लियू टी., “माहिती पुनर्प्राप्तीसाठी रँक करणे शिकणे.”, माहिती पुनर्प्राप्ती 3.3 (2009): 225-331 मध्ये फाउंडेशन्स आणि ट्रेंड्स.
  2. क्रॅस्कोव्ह ए., स्टॉगबॉअर के. आणि ग्रासबर्गर पी.,म्”परस्पर माहितीचा अंदाज लावणे.”, भौतिक पुनरावलोकन E 69.6 (2004): 066138
  3. कॉक्स डी. आर., “बायनरी अनुक्रमांचे प्रतिगमन विश्लेषण.”, जर्नल ऑफ द रॉयल स्टॅटिस्टिकल सोसायटी. मालिका B (पद्धतीसंबंधी) (1958): 215-242.