పర్సనలైజ్డ్ సర్చ్ కోసం లెర్నింగ్-నుండి-ర్యాంక్
Embibe విద్యార్థులకు వారి అభ్యాస ఫలితాలను మెరుగుపరచడంలో సహాయపడుతుంది మరియు మెనూ-ఆధారిత నావిగేషన్ వ్యవస్థను కాకుండా Embibe యొక్క పర్సనలైజ్డ్ సెర్చ్ ఇంజిన్ను ఉపయోగించడం ద్వారా వారికి అవసరమైన కంటెంట్ను కనుగొనవచ్చు. వెబ్ సెర్చ్లో పురోగతితో, ఈ రోజు వినియోగదారులు సెర్చ్ ఫలితాల యొక్క మొదటి పేజీలోనే వారు వెతికే సమాచారాన్ని కలిగి ఉండాలని భావిస్తున్నారు.
Embibeలోని కంటెంట్ మొత్తం చాలా పెద్దది మరియు స్టడీ మెటీరియల్, వీడియోలు, ప్రాక్టీస్ ప్రశ్నలు, టెస్ట్లు, కథనాలు మరియు వార్తల అంశాలు, పరీక్షలు, సబ్జెక్ట్లు, యూనిట్లు, అధ్యాయాలు, కాన్సెప్ట్లను కలిగి ఉంటుంది. సాధ్యమైనంత ఎక్కువ చర్య తీసుకోదగిన కంటెంట్కు వినియోగదారులను బహిర్గతం చేయడానికి, సెర్చ్ ఫలితాలు విడ్జెట్ సెట్ల రూపంలో ప్రదర్శించబడతాయి. ప్రతి విడ్జెట్ సెర్చ్ ఫలితాల నుండి తిరిగి పొందిన ఫలితాల సేకరణను సూచిస్తుంది, సంబంధిత చర్య లింక్లు మరియు అనుబంధిత నాలెడ్జ్ గ్రాఫ్ నోడ్ల ద్వారా సమూహం చేయబడుతుంది. Embibeలోని మొత్తం కంటెంట్ వాటితో అనుబంధించబడిన విభిన్న విడ్జెట్ రకాలను కలిగి ఉంది మరియు సమిష్టి-స్థాయి వినియోగదారు లక్షణాలతో పాటు, ఇది మా సెర్చ్ స్థలాన్ని వినియోగదారుకు తిరిగి ఇచ్చే ముందు ఎంచుకోవడానికి మరియు ర్యాంక్ చేయడానికి ~120 మిలియన్ డాక్యుమెంట్ల కలయికకు విస్తరిస్తుంది. Embibeలో సెర్చ్ ఫలితాలతో చారిత్రక వినియోగదారు పరస్పర చర్య యొక్క ట్రెండ్ విశ్లేషణ వినియోగదారులు మొదటి పేజీలోనే అగ్ర విడ్జెట్ స్థానాల్లో అత్యంత సంబంధిత సమాచారాన్ని ఆశిస్తున్నట్లు చూపుతుంది. అందువల్ల, మా వినియోగదారుల కోసం సెర్చ్ను మరింత ఆకర్షణీయంగా చేయడంలో మరియు మా సెర్చ్ ఫలితాల నాణ్యతను మెరుగుపరచడంలో ఫలితాల విడ్జెట్ల క్రమం ముఖ్యమైన పాత్ర పోషిస్తుంది.
లెర్నింగ్-నుండి-ర్యాంక్ [1] అనేది పర్యవేక్షించబడే యంత్ర అభ్యాస సమస్య, ఇది శోధన ఫలితాల కోసం స్వయంచాలకంగా ర్యాంకింగ్ మోడల్ను రూపొందించడానికి ఉపయోగించబడుతుంది. ప్రతి ప్రశ్న కోసం, అన్ని అనుబంధిత పత్రాలు సేకరించబడతాయి. ఈ పత్రాల ఔచిత్యం సాధారణంగా మానవ అంచనాలు లేదా తీర్పుల రూపంలో శిక్షణ డేటాగా అందించబడుతుంది. ర్యాంకింగ్ ఫలితాలు మరియు ఔచిత్యం తీర్పు మధ్య వ్యత్యాసాన్ని తగ్గించే ఆప్టిమైజేషన్ లక్ష్యంతో లెర్నింగ్-నుండి-ర్యాంక్ నమూనాకు శిక్షణ ఇవ్వడానికి ఈ డాక్యుమెంట్ ఔచిత్యం ఉపయోగించబడుతుంది, ఇది అన్ని ప్రశ్నలపై సగటు.
Embibeలోని ఫలితాలు విడ్జెట్లుగా వర్గీకరించబడినందున, అవి మొదటి-ఆర్డర్ ఫలితాల నుండి ప్రశ్నకు విస్తరించబడతాయి, విడ్జెట్లపై ర్యాంకింగ్ ఫంక్షన్ వర్తింపజేయాలి. అందువల్ల, మా వినియోగ సందర్భంలో, ఎలాస్టిక్సెర్చ్ v6.0 పైకి ఉన్నట్లుగా అంతర్నిర్మిత లెర్నింగ్-నుండి-ర్యాంక్ కార్యాచరణను అందించే ఏదైనా ముందుగా ఉన్న సెర్చ్ ఇంజిన్ పరిష్కారాన్ని అందించదు. వినియోగదారు ప్రశ్నల ఆధారంగా కంటెంట్ను అందించే మా వ్యక్తిగతీకరించిన సెర్చ్ ఇంజన్, వినియోగదారు సమన్వయ అసైన్మెంట్లు, చారిత్రక శోధన ట్రెండ్లు, కంటెంట్ వినియోగ విధానాలు, పరీక్ష-ఆధారిత కంటెంట్ ప్రాముఖ్యత మరియు గత వినియోగదారు పరస్పర చర్యల ఆధారంగా మొదటి-ఆర్డర్ ఫలితాలను ర్యాంక్ చేస్తుంది.
సెర్చ్ ఫలితాలపై గత వినియోగదారు క్లిక్ డేటా ఆధారంగా ఈ విధానం బాగా పనిచేసినప్పటికీ, ఇది ప్రశ్న-ఆధారిత వినియోగదారు పరస్పర చర్యను పరిగణనలోకి తీసుకోదు లేదా ప్రశ్న-పత్రాన్ని సూచించదు లేదా ప్రత్యేకంగా మా వినియోగ సందర్భంలో, ప్రశ్న-విడ్జెట్ జతలను అధిక డైమెన్షనల్ స్పేస్లోకి మరియు వాటిని ప్రొజెక్ట్ చేస్తుంది. వినియోగదారు ప్రశ్నలకు ఔచిత్యం. లెర్నింగ్-టు-ర్యాంక్ ఫ్రేమ్వర్క్ ఈ లోపాన్ని n-డైమెన్షనల్ స్పేస్లోని ప్రశ్నకు వ్యతిరేకంగా సెట్ చేసిన ఫలితాన్ని సూచించడం ద్వారా మరియు సమస్యను రిగ్రెషన్ లేదా వర్గీకరణ వంటి మెషీన్ లెర్నింగ్ సమస్యగా మార్చడం ద్వారా లేదా మూల్యాంకన కొలమానాలను ఆప్టిమైజ్ చేయడం ద్వారా ర్యాంకింగ్ను నేర్చుకుంటుంది.
సాధారణంగా, లెర్నింగ్-నుండి-ర్యాంక్ అల్గారిథమ్లు ప్రశ్న-పత్రం జతల లేదా జాబితాలపై పని చేస్తాయి. మా విషయంలో, ప్రతి ప్రశ్న వివిధ రకాల విడ్జెట్ రకాలను ఉత్పత్తి చేస్తుంది మరియు మేము వినియోగదారుల కోసం ర్యాంకింగ్ను వ్యక్తిగతీకరించాలనుకుంటున్నాము కాబట్టి, మేము మూడు రకాల ఫీచర్లను పరిగణించాము; అవి వినియోగదారు, ప్రశ్న మరియు విడ్జెట్. వినియోగదారు ప్రొఫైల్, ప్రశ్న సమాచారం మరియు ఫలితాల నుండి తిరిగి పొందిన టాప్ విడ్జెట్ల కలయిక నుండి ఫీచర్లను ఉపయోగించి వినియోగదారు చేసిన ప్రతి ప్రశ్నకు వ్యతిరేకంగా మేము మా డేటాను సూచిస్తాము. విడ్జెట్ యొక్క ఫీచర్లలో విడ్జెట్ రకం, నిలువుగా ఉండే విడ్జెట్, చారిత్రక బ్రౌజ్ జనాదరణ, ప్రశ్న పదాలు విడ్జెట్ పేరుకు సరిపోతాయా లేదా అనేవి మొదలైనవి ఉన్నాయి. నిర్దిష్ట ఉద్దేశం కనుగొనబడిందా లేదా అనే ప్రశ్నకు సంబంధించిన ఫీచర్లు, ప్రశ్న యొక్క పొడవు, టర్మ్ ఫ్రీక్వెన్సీ-ఇన్వర్స్ డాక్యుమెంట్ ఫ్రీక్వెన్సీ లక్షణాలు ప్రశ్న మొదలైనవి. వినియోగదారు పర్సనలైజేషన్ ఖాతా కోసం, మేము వినియోగదారు ఎంగేజ్మెంట్ కోహోర్ట్, వినియోగదారు పనితీరు సమన్వయం, వినియోగదారు యొక్క ప్రాథమిక లక్ష్యం మొదలైన వినియోగదారు లక్షణాలను కూడా చేర్చుతాము. అన్వేషణాత్మక డేటా విశ్లేషణ, సహసంబంధ మాతృకను అధ్యయనం చేయడం, పరస్పర సమాచార స్కోర్ని ఉపయోగించి పునరావృత లక్షణాలు తొలగించబడతాయి. [2]మరియు డైమెన్షియాలిటీ తగ్గింపు.
మేము లెర్నింగ్-నుండి-ర్యాంక్ని ప్రిడిక్షన్ సమస్యగా తగ్గించాము, దీనిలో వినియోగదారు, ప్రశ్న మరియు విడ్జెట్ ఫీచర్లను బట్టి నిర్దిష్ట విడ్జెట్పై వినియోగదారు క్లిక్ సంభావ్యతను అంచనా వేస్తాము. చారిత్రక వినియోగదారు ప్రశ్నలు మరియు తదుపరి క్లిక్ ఇంటరాక్షన్ డేటాను ఉపయోగించి, మేము క్లిక్ చేసిన స్థానం మరియు ఎగువన ఉన్న విడ్జెట్లను పరిశీలిస్తాము. ఇది చారిత్రాత్మకంగా సెట్ చేయబడిన డేటా యొక్క సాపేక్షంగా సమతుల్య పంపిణీని అందిస్తుంది, వినియోగదారులు అధిక విడ్జెట్లపై క్లిక్ చేస్తారు. వర్గీకరణ అల్గారిథమ్ని ఉపయోగించి మేము విడ్జెట్పై క్లిక్ సంభావ్యతను అంచనా వేయగలము మరియు ఈ విధానం తదుపరి పునరావృతాల కోసం ఫలితాలను సులభంగా అన్వయించగల దానితో ప్రారంభించడానికి మంచి ఆధారాన్ని అందిస్తుంది. కాబట్టి, మేము ఈ విధానం కోసం మా మొదటి ఎంపికగా లాజిస్టిక్ రిగ్రెషన్ [3]ని ఎంచుకున్నాము.
మా ప్రయోగాల కోసం, వినియోగదారు మరియు ప్రశ్నల కలయిక కోసం ఇచ్చిన స్థానం వద్ద విడ్జెట్ క్లిక్ చేయబడుతుందా లేదా అని అంచనా వేయడం పని. మేము బ్రౌజ్ జనాదరణ, పరీక్ష బరువు, ప్రశ్న పొడవు మొదలైన సంఖ్యా లక్షణాలను మాత్రమే ఉపయోగించడం ద్వారా ప్రారంభించాము మరియు దీన్ని బేస్లైన్ పనితీరుగా ఉపయోగిస్తాము. మెరుగైన ఫీచర్ సెట్కి విడ్జెట్ రకం, వినియోగదారు సమన్వయం, ప్రశ్న లక్ష్యాలు మొదలైన వర్గీకరణ డేటాను జోడించడం వలన క్లిక్ ప్రిడిక్షన్ టాస్క్పై ఖచ్చితత్వం మరియు ఖచ్చితత్వం రెండింటిలోనూ ~6% మెరుగుపడింది. మేము తర్వాత క్వెరీల నుండి సేకరించిన టాప్ 1,500 TF-IDF ఫీచర్లను జోడించాము మరియు ఇది నమూనా యొక్క ఖచ్చితత్వాన్ని ~1% మెరుగుపరిచింది, ఇది మెరుగైన పనితీరు కోసం ప్రశ్నల నుండి ఇతర టెక్స్ట్ ఫీచర్లను సంగ్రహించవలసి ఉంటుందని సూచిస్తుంది. ఈ విధానం యొక్క పనితీరు Embibe యొక్క వ్యక్తిగతీకరించిన కంటెంట్ డిస్కవరీ ఇంజిన్ కోసం లెర్నింగ్-టు-ర్యాంక్పై తదుపరి పరిశోధన పునరావృతాల కోసం బేస్లైన్గా ఉపయోగించబడుతుంది.
రెఫెరెన్స్
- Liu T., “Learning to rank for information retrieval.”, Foundations and Trends® in Information Retrieval 3.3 (2009): 225-331.
- Kraskov A., Stögbauer K. and Grassberger P., “Estimating mutual information.”, Physical review E 69.6 (2004): 066138
- Cox D. R., “The regression analysis of binary sequences.”, Journal of the Royal Statistical Society. Series B (Methodological) (1958): 215-242.