పర్సనలైజ్డ్ సర్చ్ కోసం లెర్నింగ్-నుండి-ర్యాంక్

పర్సనలైజ్డ్ సర్చ్ కోసం లెర్నింగ్-నుండి-ర్యాంక్  

Embibe విద్యార్థులకు వారి అభ్యాస ఫలితాలను మెరుగుపరచడంలో సహాయపడుతుంది మరియు మెనూ-ఆధారిత నావిగేషన్ వ్యవస్థను కాకుండా Embibe యొక్క పర్సనలైజ్డ్ సెర్చ్ ఇంజిన్‌ను ఉపయోగించడం ద్వారా వారికి అవసరమైన కంటెంట్‌ను కనుగొనవచ్చు. వెబ్ సెర్చ్‌లో పురోగతితో, ఈ రోజు వినియోగదారులు సెర్చ్ ఫలితాల యొక్క మొదటి పేజీలోనే వారు వెతికే సమాచారాన్ని కలిగి ఉండాలని భావిస్తున్నారు.

Embibeలోని కంటెంట్ మొత్తం చాలా పెద్దది మరియు స్టడీ మెటీరియల్, వీడియోలు, ప్రాక్టీస్ ప్రశ్నలు, టెస్ట్‌లు, కథనాలు మరియు వార్తల అంశాలు, పరీక్షలు, సబ్జెక్ట్‌లు, యూనిట్లు, అధ్యాయాలు, కాన్సెప్ట్‌లను కలిగి ఉంటుంది. సాధ్యమైనంత ఎక్కువ చర్య తీసుకోదగిన కంటెంట్‌కు వినియోగదారులను బహిర్గతం చేయడానికి, సెర్చ్ ఫలితాలు విడ్జెట్ సెట్‌ల రూపంలో ప్రదర్శించబడతాయి. ప్రతి విడ్జెట్ సెర్చ్ ఫలితాల నుండి తిరిగి పొందిన ఫలితాల సేకరణను సూచిస్తుంది, సంబంధిత చర్య లింక్‌లు మరియు అనుబంధిత నాలెడ్జ్ గ్రాఫ్ నోడ్‌ల ద్వారా సమూహం చేయబడుతుంది. Embibeలోని మొత్తం కంటెంట్ వాటితో అనుబంధించబడిన విభిన్న విడ్జెట్ రకాలను కలిగి ఉంది మరియు సమిష్టి-స్థాయి వినియోగదారు లక్షణాలతో పాటు, ఇది మా సెర్చ్ స్థలాన్ని వినియోగదారుకు తిరిగి ఇచ్చే ముందు ఎంచుకోవడానికి మరియు ర్యాంక్ చేయడానికి ~120 మిలియన్ డాక్యుమెంట్‌ల కలయికకు విస్తరిస్తుంది. Embibeలో సెర్చ్ ఫలితాలతో చారిత్రక వినియోగదారు పరస్పర చర్య యొక్క ట్రెండ్ విశ్లేషణ వినియోగదారులు మొదటి పేజీలోనే అగ్ర విడ్జెట్ స్థానాల్లో అత్యంత సంబంధిత సమాచారాన్ని ఆశిస్తున్నట్లు చూపుతుంది. అందువల్ల, మా వినియోగదారుల కోసం సెర్చ్‌ను మరింత ఆకర్షణీయంగా చేయడంలో మరియు మా సెర్చ్ ఫలితాల నాణ్యతను మెరుగుపరచడంలో ఫలితాల విడ్జెట్‌ల క్రమం ముఖ్యమైన పాత్ర పోషిస్తుంది.

లెర్నింగ్-నుండి-ర్యాంక్ [1] అనేది పర్యవేక్షించబడే యంత్ర అభ్యాస సమస్య, ఇది శోధన ఫలితాల కోసం స్వయంచాలకంగా ర్యాంకింగ్ మోడల్‌ను రూపొందించడానికి ఉపయోగించబడుతుంది. ప్రతి ప్రశ్న కోసం, అన్ని అనుబంధిత పత్రాలు సేకరించబడతాయి. ఈ పత్రాల ఔచిత్యం సాధారణంగా మానవ అంచనాలు లేదా తీర్పుల రూపంలో శిక్షణ డేటాగా అందించబడుతుంది. ర్యాంకింగ్ ఫలితాలు మరియు ఔచిత్యం తీర్పు మధ్య వ్యత్యాసాన్ని తగ్గించే ఆప్టిమైజేషన్ లక్ష్యంతో లెర్నింగ్-నుండి-ర్యాంక్ నమూనాకు శిక్షణ ఇవ్వడానికి ఈ డాక్యుమెంట్ ఔచిత్యం ఉపయోగించబడుతుంది, ఇది అన్ని ప్రశ్నలపై సగటు.

చిత్రం 1: Embibe యొక్క పర్సనలైజ్డ్ కంటెంట్ ఆవిష్కరణ ఇంజిన్ నేపథ్యంలో లెర్నింగ్-నుండి-ర్యాంక్ నేర్చుకోవడం. ఒక వినియోగదారు Embibeలో పర్సనలైజ్డ్ కంటెంట్ ఆవిష్కరణ ఇంజిన్‌కి ఒక ప్రశ్న వేస్తారు. ఫలితాలు ఎలాస్టిక్‌సెర్చ్ క్లస్టర్ నుండి తిరిగి పొందబడతాయి మరియు ఫలితాల నుండి విడ్జెట్ సెట్‌లను రూపొందించే తర్వాత ప్రాసెసింగ్ లేయర్‌కి పంపబడతాయి. పెర్సనలైజేషన్ లేయర్ వినియోగదారు, ప్రశ్న మరియు విడ్జెట్ లక్షణాల ఆధారంగా విడ్జెట్ సెట్‌లను తిరిగి ర్యాంక్ చేయడానికి లెర్నింగ్-నుండి-ర్యాంక్ నమూనాను ఉపయోగిస్తుంది. లెర్నింగ్-టు-ర్యాంక్ మోడల్ అనేది పర్యవేక్షించబడే మెషిన్ లెర్నింగ్ మోడల్, ఇది రిజల్ట్ విడ్జెట్‌లపై వినియోగదారు క్లిక్‌లను అంచనా వేసే విడ్జెట్ ర్యాంకింగ్ సమస్యను చూపుతుంది. వినియోగదారు చేసిన ప్రశ్నలకు వ్యతిరేకంగా విడ్జెట్‌లపై చారిత్రక వినియోగదారు క్లిక్‌లను ఉపయోగించి నమూనా శిక్షణ పొందింది.

Embibeలోని ఫలితాలు విడ్జెట్‌లుగా వర్గీకరించబడినందున, అవి మొదటి-ఆర్డర్ ఫలితాల నుండి ప్రశ్నకు విస్తరించబడతాయి, విడ్జెట్‌లపై ర్యాంకింగ్ ఫంక్షన్ వర్తింపజేయాలి. అందువల్ల, మా వినియోగ సందర్భంలో, ఎలాస్టిక్‌సెర్చ్ v6.0 పైకి ఉన్నట్లుగా అంతర్నిర్మిత లెర్నింగ్-నుండి-ర్యాంక్ కార్యాచరణను అందించే ఏదైనా ముందుగా ఉన్న సెర్చ్ ఇంజిన్ పరిష్కారాన్ని అందించదు. వినియోగదారు ప్రశ్నల ఆధారంగా కంటెంట్‌ను అందించే మా వ్యక్తిగతీకరించిన సెర్చ్ ఇంజన్, వినియోగదారు సమన్వయ అసైన్‌మెంట్‌లు, చారిత్రక శోధన ట్రెండ్‌లు, కంటెంట్ వినియోగ విధానాలు, పరీక్ష-ఆధారిత కంటెంట్ ప్రాముఖ్యత మరియు గత వినియోగదారు పరస్పర చర్యల ఆధారంగా మొదటి-ఆర్డర్ ఫలితాలను ర్యాంక్ చేస్తుంది.

సెర్చ్ ఫలితాలపై గత వినియోగదారు క్లిక్ డేటా ఆధారంగా ఈ విధానం బాగా పనిచేసినప్పటికీ, ఇది ప్రశ్న-ఆధారిత వినియోగదారు పరస్పర చర్యను పరిగణనలోకి తీసుకోదు లేదా ప్రశ్న-పత్రాన్ని సూచించదు లేదా ప్రత్యేకంగా మా వినియోగ సందర్భంలో, ప్రశ్న-విడ్జెట్ జతలను అధిక డైమెన్షనల్ స్పేస్‌లోకి మరియు వాటిని ప్రొజెక్ట్ చేస్తుంది. వినియోగదారు ప్రశ్నలకు ఔచిత్యం. లెర్నింగ్-టు-ర్యాంక్ ఫ్రేమ్‌వర్క్ ఈ లోపాన్ని n-డైమెన్షనల్ స్పేస్‌లోని ప్రశ్నకు వ్యతిరేకంగా సెట్ చేసిన ఫలితాన్ని సూచించడం ద్వారా మరియు సమస్యను రిగ్రెషన్ లేదా వర్గీకరణ వంటి మెషీన్ లెర్నింగ్ సమస్యగా మార్చడం ద్వారా లేదా మూల్యాంకన కొలమానాలను ఆప్టిమైజ్ చేయడం ద్వారా ర్యాంకింగ్‌ను నేర్చుకుంటుంది.

సాధారణంగా, లెర్నింగ్-నుండి-ర్యాంక్ అల్గారిథమ్‌లు ప్రశ్న-పత్రం జతల లేదా జాబితాలపై పని చేస్తాయి. మా విషయంలో, ప్రతి ప్రశ్న వివిధ రకాల విడ్జెట్ రకాలను ఉత్పత్తి చేస్తుంది మరియు మేము వినియోగదారుల కోసం ర్యాంకింగ్‌ను వ్యక్తిగతీకరించాలనుకుంటున్నాము కాబట్టి, మేము మూడు రకాల ఫీచర్‌లను పరిగణించాము; అవి వినియోగదారు, ప్రశ్న మరియు విడ్జెట్. వినియోగదారు ప్రొఫైల్, ప్రశ్న సమాచారం మరియు ఫలితాల నుండి తిరిగి పొందిన టాప్ విడ్జెట్‌ల కలయిక నుండి ఫీచర్‌లను ఉపయోగించి వినియోగదారు చేసిన ప్రతి ప్రశ్నకు వ్యతిరేకంగా మేము మా డేటాను సూచిస్తాము. విడ్జెట్ యొక్క ఫీచర్లలో విడ్జెట్ రకం, నిలువుగా ఉండే విడ్జెట్, చారిత్రక బ్రౌజ్ జనాదరణ, ప్రశ్న పదాలు విడ్జెట్ పేరుకు సరిపోతాయా లేదా అనేవి మొదలైనవి ఉన్నాయి. నిర్దిష్ట ఉద్దేశం కనుగొనబడిందా లేదా అనే ప్రశ్నకు సంబంధించిన ఫీచర్‌లు, ప్రశ్న యొక్క పొడవు, టర్మ్ ఫ్రీక్వెన్సీ-ఇన్వర్స్ డాక్యుమెంట్ ఫ్రీక్వెన్సీ లక్షణాలు ప్రశ్న మొదలైనవి. వినియోగదారు పర్సనలైజేషన్ ఖాతా కోసం, మేము వినియోగదారు ఎంగేజ్‌మెంట్ కోహోర్ట్, వినియోగదారు పనితీరు సమన్వయం, వినియోగదారు యొక్క ప్రాథమిక లక్ష్యం మొదలైన వినియోగదారు లక్షణాలను కూడా చేర్చుతాము. అన్వేషణాత్మక డేటా విశ్లేషణ, సహసంబంధ మాతృకను అధ్యయనం చేయడం, పరస్పర సమాచార స్కోర్‌ని ఉపయోగించి పునరావృత లక్షణాలు తొలగించబడతాయి.  [2]మరియు డైమెన్షియాలిటీ తగ్గింపు.

మేము లెర్నింగ్-నుండి-ర్యాంక్‌ని ప్రిడిక్షన్ సమస్యగా తగ్గించాము, దీనిలో వినియోగదారు, ప్రశ్న మరియు విడ్జెట్ ఫీచర్‌లను బట్టి నిర్దిష్ట విడ్జెట్‌పై వినియోగదారు క్లిక్ సంభావ్యతను అంచనా వేస్తాము. చారిత్రక వినియోగదారు ప్రశ్నలు మరియు తదుపరి క్లిక్ ఇంటరాక్షన్ డేటాను ఉపయోగించి, మేము క్లిక్ చేసిన స్థానం మరియు ఎగువన ఉన్న విడ్జెట్‌లను పరిశీలిస్తాము. ఇది చారిత్రాత్మకంగా సెట్ చేయబడిన డేటా యొక్క సాపేక్షంగా సమతుల్య పంపిణీని అందిస్తుంది, వినియోగదారులు అధిక విడ్జెట్‌లపై క్లిక్ చేస్తారు. వర్గీకరణ అల్గారిథమ్‌ని ఉపయోగించి మేము విడ్జెట్‌పై క్లిక్ సంభావ్యతను అంచనా వేయగలము మరియు ఈ విధానం తదుపరి పునరావృతాల కోసం ఫలితాలను సులభంగా అన్వయించగల దానితో ప్రారంభించడానికి మంచి ఆధారాన్ని అందిస్తుంది. కాబట్టి, మేము ఈ విధానం కోసం మా మొదటి ఎంపికగా లాజిస్టిక్ రిగ్రెషన్ [3]ని ఎంచుకున్నాము.

మా ప్రయోగాల కోసం, వినియోగదారు మరియు ప్రశ్నల కలయిక కోసం ఇచ్చిన స్థానం వద్ద విడ్జెట్ క్లిక్ చేయబడుతుందా లేదా అని అంచనా వేయడం పని. మేము బ్రౌజ్ జనాదరణ, పరీక్ష బరువు, ప్రశ్న పొడవు మొదలైన సంఖ్యా లక్షణాలను మాత్రమే ఉపయోగించడం ద్వారా ప్రారంభించాము మరియు దీన్ని బేస్‌లైన్ పనితీరుగా ఉపయోగిస్తాము. మెరుగైన ఫీచర్ సెట్‌కి విడ్జెట్ రకం, వినియోగదారు సమన్వయం, ప్రశ్న లక్ష్యాలు మొదలైన వర్గీకరణ డేటాను జోడించడం వలన క్లిక్ ప్రిడిక్షన్ టాస్క్‌పై ఖచ్చితత్వం మరియు ఖచ్చితత్వం రెండింటిలోనూ ~6% మెరుగుపడింది. మేము తర్వాత క్వెరీల నుండి సేకరించిన టాప్ 1,500 TF-IDF ఫీచర్‌లను జోడించాము మరియు ఇది నమూనా యొక్క ఖచ్చితత్వాన్ని ~1% మెరుగుపరిచింది, ఇది మెరుగైన పనితీరు కోసం ప్రశ్నల నుండి ఇతర టెక్స్ట్ ఫీచర్‌లను సంగ్రహించవలసి ఉంటుందని సూచిస్తుంది. ఈ విధానం యొక్క పనితీరు Embibe యొక్క వ్యక్తిగతీకరించిన కంటెంట్ డిస్కవరీ ఇంజిన్ కోసం లెర్నింగ్-టు-ర్యాంక్‌పై తదుపరి పరిశోధన పునరావృతాల కోసం బేస్‌లైన్‌గా ఉపయోగించబడుతుంది.

రెఫెరెన్స్

  1. Liu T., “Learning to rank for information retrieval.”, Foundations and Trends® in Information Retrieval 3.3 (2009): 225-331.
  2. Kraskov A., Stögbauer K. and Grassberger P., “Estimating mutual information.”, Physical review E 69.6 (2004): 066138
  3. Cox D. R., “The regression analysis of binary sequences.”, Journal of the Royal Statistical Society. Series B (Methodological) (1958): 215-242.