தனிப்பயனாக்கப்பட்ட தேடலுக்கான லேர்னிங்-டு ரேங்க்

தனிப்பயனாக்கப்பட்ட தேடலுக்கான லேர்னிங்-டு ரேங்க்

மாணவர்களின் கற்றல் வெளிப்பாடுகளை மேம்படுத்த Embibe அவர்களுக்கு உதவுகிறது. அவர்களுக்கு தேவையான கருத்துக்களை கண்டறியும் முக்கிய வழியாக Embibe தளத்தின் தனிப்பயனாக்கப்பட்ட தேடுதல் பொறி உள்ளது. வெப் தேடலில் ஏற்பட்டுள்ள முன்னேற்றங்களுடன் பயனர்கள் தேடல் முடிவுகளின் முதல் பக்கங்களில் அவர்கள் தேடும் தகவல்களை பெறலாம். 

பாடக்குறிப்புகள், வீடியோக்கள், பயிற்சி கேள்விகள், தேர்வுகள், கட்டுரைகள் மற்றும் தகவல்கள் என பலவிதமான தேர்வுகள், பாடங்கள், அலகுகள், அத்தியாயங்கள், மற்றும் கருத்துகள் என Embibe தளத்தில் கிடைக்கும் தகவல்கள் ஏராளமானவை. பயனர்கள் இந்த தகவல்களை முழுவதும் அறிய, தேடல் முடிவுகள், விட்ஜெட் தொகுப்பு வடிவில் இவை அளிக்கப்படுகிறது. ஒவ்வொரு விட்ஜெட்டும் தேடல் முடிவுகளில் இருந்து பெறப்படும் தொகுப்பு, இவை லிங்க் மற்றும் அது தொடர்பான அறிவு வரைபடத்தின் கணுக்களாக தொகுக்கப்பட்டுள்ளன. Embibe தளத்தில்  கிடைக்கும் அனைத்து உள்ளடக்கங்களும் வெவ்வேறு விட்ஜெட் வகைகளை கொண்டுள்ளது. இது எங்களது தேடல் பகுதியை ~120 மில்லியன் ஆவணங்களின் தொகுப்பில் இருந்து தேர்ந்தெடுக்கப்பட்டு வரிசைப்படுத்தப்பட்டு பயனர்களுக்கு அளிக்கிறது. பயனர்கள் மற்றும் Embibe தளத்தில்  அவர்களின் தேடல் முடிவுகளை பகுப்பாய்வு செய்கையில் முதல் பக்கத்தில் மேல் விட்ஜெட்களில் தேவைப்படும் தகவல்களை பயனர்கள் எதிர்பார்க்கிறார்கள் என தெரிகிறது.  ஆகவே முடிவு விட்ஜெட்களின் வரிசையானது தேடல் பகுதியில் முக்கிய பங்கினை வகிக்கிறது மற்றும் நம் தேடல் முடிவுகளின் தரத்தினை மேம்படுத்தவும் உதவுகிறது. 

லேர்னிங்-டு ரேங்க் என்பது கற்றல் பிரச்சினைகளை தீர்க்க தானியக்கமாக தேடல் முடிவுகளுக்கு தரவரிசை மாதிரியை உருவாக்கக்கூடிய  மேற்பார்வையிடப்பட்ட இயந்திரமாகும்.  ஒவ்வொரு கேள்விக்கும், தொடர்புடைய அனைத்து ஆவணங்களும் சேகரிக்கப்படுகின்றன. இந்த ஆவணங்களின் பொருத்தம் பொதுவாக மனித மதிப்பீடுகள் அல்லது தீர்மானங்களின் வடிவில் பயிற்சி தரவுகளாக வழங்கப்படுகிறது. அனைத்து கேள்விகளுக்கும் சராசரியாக தரவரிசை முடிவுகள் மற்றும் தொடர்புடைய தீர்மானங்கள் ஆகியவற்றுக்கு இடையேயான வேறுபாட்டைக் குறைக்கும் ஒரு தேர்வுமுறை இலக்குடன் லேர்னிங்-டு ரேங்க் மாதிரியைப் பயிற்றுவிக்க இந்த ஆவணத்தின் பொருத்தம் பயன்படுத்தப்படுகிறது.

படம் 1: Embibe-யின் தனிப்பயனாக்கப்பட்ட உள்ளடக்க தேடுதல் அமைப்பில் லேர்னிங்-டு ரேங்க். Embibe-யில், ஒரு பயனர் தனிப்பயனாக்கப்பட்ட உள்ளடக்க தேடுதல் அமைப்பில் ஒரு கேள்வியை வினவுகிறார். அதற்கான முடிவுகள் Elasticsearch தொகுதியில் இருந்து எடுக்கப்படுகிறது. அதன் பின், அது முன் செயலாக்க அடுக்கிற்குள் அனுப்பப்படுகிறது. அந்த அடுக்கு, முடிவுகளில் இருந்து விட்ஜெட் தொடரை உருவாக்குகிறது. பயனர், பயனரின் வினவல் மற்றும் விட்ஜெட் அம்சங்களின் அடிப்படையில், பயனர் தனிப்பயனாக்க அடுக்கு என்பது ஒரு லேர்னிங்-டு ரேங்க் மாதிரியை பயன்படுத்தி விட்ஜெட் தொடர்களை மீள்-தரநிலைபடுத்துகிறது. லேர்னிங்-டு ரேங்க் மாதிரி என்பது கண்காணிக்கப்பட்ட இயந்திர கற்றல் மாதிரி ஆகும். இது விட்ஜெட்டை தரநிலை படுத்தும் சிக்கலை கொண்டு விட்ஜெட் முடிவுகளில் பயனர் கிளிக்குகளை கணிக்கிறது. இதற்கு முன் பயனர் கேட்ட வினவலுக்கு அவர் எந்த விட்ஜெட்டை கிளிக் செய்தார் என்ற தரவுகளை கொண்டு இந்த மாதிரிக்கு பயிற்சி அளிக்கப்படுகிறது.

Embibe தளத்தில் உள்ள முடிவுகள் விட்ஜெட்டுகளாகத் தொகுக்கப்பட்டுள்ளது. அவை முதல்-வரிசை முடிவுகளிலிருந்து வினவல் வரை விரிவுபடுத்தப்பட்டதால், விட்ஜெட்டுகளில் தான் தரவரிசைச் செயல்பாடு பயன்படுத்தப்பட வேண்டும். எனவே, நமது பயன்பாட்டில், Elasticsearch v6.0 upwards போன்று, உள்ளே கட்டமைக்கப்பட்ட லேர்னிங்-டு ரேங்க் செயல்பாட்டை வழங்கும் தேடுபொறிகளும் இதற்கு  தீர்வை வழங்க முடியாது. பயனர் வினவல்களின் அடிப்படையில் உள்ளடக்கத்தை வழங்கும் எங்கள் தனிப்பயனாக்கப்பட்ட தேடுபொறியானது, பயனர்களின் கூட்டுப் பயிற்சிகள், வரலாற்று தேடல் போக்குகள், உள்ளடக்க நுகர்வு முறைகள், தேர்வு அடிப்படையிலான உள்ளடக்க முக்கியத்துவம் மற்றும் கடந்தகால பயனர் கருத்து பரிமாற்றம் போன்ற 25 முக்கிய காரணிகளின் அடிப்படையில் முதல் வரிசை முடிவுகளை  வரிசைப்படுத்துகிறது.

தேடல் முடிவுகளில் பயனர்களின் கிளிக் தரவுகளை பொறுத்து இந்த முறை சிறப்பாக செயல்பட்டாலும், இது கேள்வி அடிப்படையிலான பயனர் தொடர்பு, வினவல் ஆவணங்கள் , குறிப்பாக வினவல்-விட்ஜெட் ஜோடி போன்றவற்றை கருத்தில் கொள்வதில்லை. லேர்னிங்-டு ரேங்க் அமைப்பானது தேடல் முடிவுகளை வினவல்களுடன் ‘n’-பரிமாண பகுதியில் வெளிப்படுத்துவதன் மூலமாகவும்  பிரச்சனைகளை பின்னடைவு செய்தல், வகைப்படுத்துதல் அல்லது பரிமாண அளவீடுகளை ஒழுங்கமைத்து  தரவரிசையினை பயின்றும் இந்த குறைபாட்டினை நிவர்த்தி செய்கிறது.   

வழக்கமாக, தரவரிசைக்கான கற்றல் வழிமுறைகள், வினவல்-ஆவண ஜோடிகள் அல்லது பட்டியல்களில் வேலை செய்கின்றன. வழக்கமாக, இது போன்ற சமயங்களில், ஒவ்வொரு வினவலும் வெவ்வேறு வகையான விட்ஜெட் வகைகளை உருவாக்கும் மற்றும் பயனர்களுக்கான தரவரிசையைத் தனிப்பயனாக்க விரும்புவதால், நாங்கள் மூன்று வகை அம்சங்களைக் கருத்தில் கொண்டுள்ளோம்; அதாவது பயனர், வினவல் மற்றும் விட்ஜெட். பயனர் சுயவிவரம், வினவல் தகவல் மற்றும் முடிவுகளில் இருந்து பெறப்பட்ட சிறந்த விட்ஜெட்கள் ஆகியவற்றின் கலவையிலிருந்து அம்சங்களைப் பயன்படுத்தி ஒரு பயனர் செய்யும் ஒவ்வொரு வினவலுக்கும் எதிராக எங்கள் தரவை நாங்கள் வெளிப்படுத்துகிறோம். விட்ஜெட்டின் வகை, விட்ஜெட்டின் வெர்டிகல், அதிகமாக தேடப்பட்டதின் வரலாறு, வினவல் சொற்கள் விட்ஜெட்டுடன் பொருந்துகிறதா போன்றவைகள் விட்ஜெட் அம்சங்களில் உட்படுத்தப்பட்டிருக்கும். குறிப்பிட்ட நோக்கம் கண்டறியப்பட்டதா, வினவலின் நீளம் போன்ற அம்சங்கள் வினவலில் கொடுக்கப்பட்டிருக்கும். ஒரு பயனர் கணக்கை தனிப்பயனாக்க, மொத்த பயனர்களின் பயன்பாடு, மொத்த பயனர்களின் செயல்முறை, பயனரின் முதன்மையான இலக்கு போன்ற பயனர் சார்ந்த அம்சங்களும் உட்படுத்தப்பட்டுள்ளது.

பயனர், வினவல் மற்றும் விட்ஜெட்டை வைத்து  ஒரு குறிப்பிட்ட விட்ஜெட்டின் கிளிக்குகளை நாங்கள் கணிக்க  லேர்னிங்-டு ரேங்  ஒரு கணிக்கும் செயல்முறையாக மாற்றியுள்ளோம். கிளிக் தரவுகள் மற்றும் பயனர் கேள்விகளின் வரலாற்றினை பயன்படுத்தி கிளிக் செய்யும் நிலைகளில் அந்த விட்ஜெட்டை வைத்து கிளிக்குகளை கணிக்கிறோம் . இது ஒப்பிடும்போது தரவின் சமமான பரவலை கொடுக்கிறது, பயனர்கள் அதிகமாக மேலே உள்ள விட்ஜெட்களை கிளிக் செய்ய முற்படுகின்றனர். வகைப்படுத்தும் வழிமுறைகளை பயன்படுத்தி விட்ஜெட்டினை கிளிக் செய்வதை கணிக்கிறோம். மேலும், மீண்டும் இதை செய்கையில்  இந்த முறை முடிவுகளை எளிதில் கண்டறியும் தொடக்கத்திற்கான நல்ல அடித்தளத்தை இது அமைத்து கொடுக்கிறது. ஆகவே நாம் இந்த லாஜிஸ்டிக் ரெக்ரசன்[3] முறையை நம் முதல் தேர்வாக கொள்கிறோம்.

ஒரு பயனர் மற்றும் வினவலுக்காக ஒரு விட்ஜெட் குறித்த இடத்தில் கிளிக் செய்யப்படும்போது அதை எங்களால் கணிக்க முடிகிறதா என்பதை அறிய அதை ஒரு சோதனையாக எடுத்துக்கொண்டோம்.  பிரபலமான தேடல்கள், தேர்வு முக்கியத்துவம், வினவலின் நீளம் போன்ற சில எண்ணியல் அளவுகளை பயன்படுத்தி  இதனை அடிப்படை செயல்திறனாக கொண்டு இதை செய்தோம். விட்ஜெட் வகை, பயனர் குழு, வினாக்களின் இலக்கு, போன்ற வகை தரவுகளை மேம்படுத்தப்பட்ட அம்ச தொகுப்புகளுடன் சேர்ப்பது துல்லியத்தன்மையில் ~6% வரை மேம்படுத்தப்பட்டிருந்தது. வினவல்களில் இருந்து பெறப்பட்ட 1,500 TF-IDF அம்சங்களை நாங்கள் பிறகு சேர்த்து, இந்த மாதிரியின் துல்லியத்தன்மையை ~1% அதிகரித்துள்ளோம். இது மேம்படுத்தப்பட்ட செயல்திறனுக்கு வினவல்களில் இருந்து பெறப்படும் மற்ற உரை அம்சங்களும் தேவை என குறிக்கிறது. இந்த முறையின் செயல்திறன், Embibe தளத்தின் தனிப்பயனாக்கப்பட்ட கருத்து தேடல் பொறியின் தரவரிசைப்படுத்தும் கற்றலுக்கான ஆராய்ச்சிகளுக்கு அடித்தளமாக பயன்படுத்தப்படுகிறது.

ரெபெரென்ஸ்:

  1. Liu T., “Learning to rank for information retrieval.”, Foundations and Trends® in Information Retrieval 3.3 (2009): 225-331.
  2. Kraskov A., Stögbauer K. and Grassberger P., “Estimating mutual information.”, Physical review E 69.6 (2004): 066138
  3. Cox D. R., “The regression analysis of binary sequences.”, Journal of the Royal Statistical Society. Series B (Methodological) (1958): 215-242.