డీడూప్లికేషన్; ఒక సాంకేతిక సమీక్ష

డీడూప్లికేషన్; ఒక సాంకేతిక సమీక్ష

ఒక విద్యా సాంకేతిక వేదికగా Embibe వివిధ అభ్యాస వస్తువులను సమీకరించి వాటిని సమర్థవంతంగా నిర్వహిస్తుంది కూడా. దీని ద్వారా విద్యార్థులకు వారి అభ్యాస అవసరాలకు అనుగుణమైన కంటెంట్‌ని అందిస్తుంది. ఈ కంటెంట్ పూల్ అనేది ప్రాథమికంగా ఏ అంశానికి సంబంధించిన అవగాహన అయిన కల్పించేందుకు వీలుగా వివిధ వీడియోలు, వివరణలు, ఇంటరాక్టివ్ అభ్యాస అంశాలను కలిగి ఉంటుంది. అలాగే కొన్ని ప్రశ్నలను విద్యార్థుల యొక్క మేథస్సు స్థాయిని పరీక్షించేందుకు సంయుక్తంగా వారి ముందు ఉంచుతుంది. తద్వారా చక్కని అభ్యాసం మరియు టెస్ట్ అనుభవాలను వారు పొందవచ్చు. Embibeలో ప్రాక్టీస్ మరియు టెస్ట్ ద్వారా వినియోగదారులను ఎంగేజ్ చేయడమే కాదు.. అతిముఖ్యమైన విద్యాపరమైన, ప్రవర్తన పరమైన, టెస్ట్ తీసుకోవడం, టెస్ట్ స్థాయి మరియు వినియోగదారుల సామర్థ్యాలకు సంబంధించిన నిర్దిష్టతలను కూడా మాకు తెలియజేస్తుంది. వీటి ద్వారా వినియోగదారుల ప్రయాణం గురించి మేం తెలుసుకుని వారిలో ఉన్న పూర్తి సామర్థ్యాన్ని వెలికితీసే ప్రయత్నం చేస్తాం. ప్రాక్టీస్ మరియు టెస్ట్ ఫీచర్లకు ప్రాముఖ్యం ఇవ్వడం ద్వారా చాలావరకు వినియోగదారులను ఎంగేజ్ చేయడంతోపాటూ వారికి ఆయా అంశాలపై పట్టు లభించేలా కూడా చేయచ్చు.

ప్రశ్నలతో ఇంత పెద్ద పూల్‌ని తయారుచేయడానికి మా వద్ద వివిధ రకాల వనరులు ఉన్నాయి. అవి- సంస్థలో గల అధ్యాపకులు, సబ్జెక్ట్ మ్యాటర్ ఎక్స్‌పర్ట్స్, అకడమిక్ కన్సల్టెంట్స్ మరియు ఇతరత్రా ఎందరో ఈ ప్రక్రియలో పాల్గొన్నారు. వీటితోపాటూ ప్రముఖ టెక్ట్స్‌బుక్స్ మరియు రిఫరెన్స్ మెటీరియల్స్ నుంచి కూడా ప్రశ్నలు తీసుకున్నాం. ఎన్నో రకాల అంశాలు ఈ కంటెంట్ పూల్‌లో పాల్గొన్నప్పటికీ అది వినియోగదారులను ఎంత వరకు ఎంగేజ్ చేస్తుందన్నదే మేము ప్రధానంగా చూశాం. ఈ క్రమంలోనే కంటెంట్ నాణ్యత మీద దృష్టి సారించాం. కంటెంట్ క్యూరేషన్‌లో ఉండే వివిధ రకాల సమస్యలను ప్రామాణికాలుగా తీసుకుని సంబంధిత సమస్యల గురించి తెలుసుకోవడానికి ప్రయత్నించాం. కంటెంట్ డూప్లికేషన్, క్వశ్చన్ కరెక్ట్‌నెస్ ఇష్యూస్, అసంపూర్ణ ప్రశ్నలు, మెటా ట్యాగింగ్ తప్పిదాలు.. మొదలైనవి వాటిలో కొన్ని. ఈ ఆర్టికల్‌లో మనం కంటెంట్ డూప్లికేషన్ మరియు Embibe తన మేథా వ్యవస్థ ద్వారా దానిని ఎలా ఎదుర్కొంటుంది అనే దాని గురించి తెలుసుకుందాం.

కంటెంట్ డూప్లికేషన్ మరియు స్పష్టత

ఈ వ్యవస్థలో వినియోగదారుల వాడకాన్ని ప్రభావితం చేసే వాటిలో కంటెంట్ డూప్లికేషన్ (టెస్ట్/ప్రాక్టీస్ సమస్యలు/ప్రశ్నలు) కూడా ఒకటి. ఇంకా చెప్పాలంటే- ‘‘ఫేస్‌బుక్ లేదా ఇన్‌స్టాగ్రామ్‌లో ఒకే విధమైన వీడియో/ఫొటోని మళ్లీ మళ్లీ చూస్తున్నట్లుగా అనిపిస్తుంది. దీని వల్ల వినియోగదారులు అసౌకర్యానికి గురి కావడమే కాదు.. కొన్ని సందర్భాల్లో ఈ వేదికను శాశ్వతంగా వదిలి వెళ్లిపోయేందుకు కూడా ఇది కారణం కావచ్చు.’’ అదేవిధంగా ఒకే రకమైన ప్రశ్నను టెస్ట్ లేదా ప్రాక్టీస్ విభాగాల్లో ఎక్కువసార్లు విద్యార్థులకు సంధించినప్పుడు వారికి కూడా అసహనం కలగచ్చు. మన వేదికను వదిలి వెళ్లిపోవచ్చు.

Embibeలో ఈ సమస్యను పరిష్కరించడానికి మేము సింటాక్స్ (ఎడిట్-దూరం) ఆధారిత కొలతల ద్వారా ఆవరించబడి ఉన్న హైబ్రిడ్ విధానాలు కలిగి ఉన్నాం. అలాగే లోతైన అభ్యాస ఆధారిత (ResNet-18 కన్వల్యూషనల్ న్యూరల్ నెట్‌వర్క్ ఆర్కిటెక్చర్) సాంద్రతర వెక్టర్ సారూప్యతల ద్వారా ప్రశ్నల యొక్క నకళ్లను గుర్తిస్తాం. సందేహాలు టెక్ట్సువల్ కంటెంట్‌లో పూర్తి టెక్ట్స్ ఆధారిత కంటెంట్, తాజా స్క్రిప్ట్ స్కోర్ సందేహాలు.. మొదలైన వాటి ద్వారా ఎలాస్టిక్‌సెర్చెస్ (Lucene) ప్రధాన విధులను మేము ఉపయోగిస్తాం. మా అభ్యాస కంటెంట్ (ప్రశ్నలు) టెక్ట్స్ రూపంలో (ప్రశ్నల టెక్ట్స్, సమాధాన టెక్ట్స్); అలాగే చిత్ర/ఫొటోల రూపంలో (చిత్రాలు, బొమ్మలు.. మొదలైనవి) మరియు పైప్‌లైన్ ఈ రెండింటినీ గుర్తించి పరిగణనలోకి తీసుకుని వీటి నకళ్లను కంటెంట్ పూల్ నుంచి గుర్తించే ప్రయత్నం చేస్తుంది. వ్యవస్థలో నకిలీ ప్రశ్నలను సృష్టించడం లేదా పొందడాన్ని నిరోధించడానికి మేము ఈ విధానం చుట్టూ వాస్తవ సమయ ఆధారిత యుటిలిటీని ఏర్పాటుచేశాం. ఇది డీడూప్లికేషన్‌ని నివారించే ఓ వారధిగా పని చేస్తుంది. టెక్ట్స్ అర్థ సారూప్యతను నాలెడ్జ్ అవేర్ నమూనాలను ఉపయోగించి మెరుగుపరచవచ్చు. అలాగే లోతైన అభ్యాస నమూనాలను ఉపయోగించి సమాచారాన్ని[1][2] ఉపయోగించుకోవచ్చు. విద్యావేత్తలలో నమ్మకాన్ని కలిగించడానికి వివరించదగిన నమూనాలు బాగా తోడ్పడతాయి. వీటి ద్వారా నమూనాల ఫలితాలపై ఆధారపడవచ్చనే నమ్మకం వారిలో కలుగుతుంది[3].

ఈ పైప్‌లైన్ ద్వారా డేటా ఫ్లో అనేది ఎలా జరుగుతుందో చిత్రరూపంలో చూద్దాం రండి

థ్రెషోల్డ్ విభాగం

కంటెంట్ డీడూప్లికేషన్ పైప్‌లైన్‌లో థ్రెష్‌హోల్డ్/ట్యూనింగ్ అనేది ప్రధానంగా ఉన్న సమస్య. ఒకే విధమైన లేదా డూప్లికేట్ కాని ప్రశ్నలను నకళ్ల నుంచి ఇది వేరు చేస్తుంది. ఇక్కడ సరైన థ్రెష్‌హోల్డ్స్‌ని గుర్తించేందుకు ఒక లేబుల్డ్ సెట్ సిద్ధం చేయడంలో మేము సబ్జెక్ట్ మ్యాటర్ ఎక్స్‌పర్ట్స్ సహాయం తీసుకున్నాం. నకలు మరియు డూప్లికేట్ కాని జతలుగా వారిని గుర్తించమన్నాం. అలాగే సభ్యుల ఉత్పత్తి కోసం టాప్‌లో ఉన్న k సభ్యులను కంటెంట్ పూల్ నుంచి ఎంపిక చేసుకోవాలి. ఇందుకోసం చిత్ర సాంద్రతర వెక్టర్స్ పై గల ఎలాస్టిక్సెర్చ్స్ ఫుల్ టెక్ట్స్ సందేహాలు మరియు స్క్రిప్ట్ స్కోర్ సందేహాలను ఉపయోగించాలి.

ఇప్పుడు సరైన థ్రెష్‌హోల్డ్ విలువను ఎంపిక చేసుకునేందుకు వివిధ థ్రెష్‌హోల్డ్ విలువలు (పరిధి 0.5 నుంచి 1.0, దశ-పరిమాణం; 0.05) గల గ్రిడ్ సెర్చ్‌‌ని ఉపయోగించాలి. ఇందులో ఖచ్చితత్వం లేబుల్డ్ డేటాసెట్‌తో పోలిస్తే గరిష్టంగా ఉంటుంది. ఇక్కడ వివిధ థ్రెష్‌హోల్డ్ విలువల వద్ద యాంకర్ ప్రశ్నలు మరియు ఖచ్చితమైన సంఖ్యలకు టాప్ k సభ్యులను ఉత్పత్తి చేస్తారు. గరిష్ట ఖచ్చితత్వాన్ని అందించే సారూప్యత స్కోర్‌ని తుది థ్రెష్‌హోల్డ్ విలువగా ఎంపిక చేస్తారు.

బెంచ్‌మార్కింగ్ విధానం

హోల్డ్ అవుట్ లేబుల్డ్ సెట్‌కి వ్యతిరేకంగా ఉన్న నకళ్ల గుర్తింపు ప్రక్రియకు బెంచ్‌మార్కింగ్ జరుగుతుంది. దాని నిర్ధిష్టతలు ఎలా ఉంటాయో ఈ కింద టేబుల్‌లో చూద్దాం

డేటాసెట్ పరిమాణంఖచ్చితత్వం (సరిగ్గా మార్క్ చేసినవి)

లేబెల్డ్ ప్రశ్నల జతలు- టెక్ట్స్ మాత్రమే, టెక్ట్స్+చిత్రం, కేవలం చిత్రం
511483.1% (4250)

లేబెల్డ్ ప్రశ్నల జత- టెక్ట్స్+చిత్రం, కేవలం చిత్రం
271080.1% (2193)

చాలా యంత్ర ఆధారిత అభ్యాస పనుల్లో 80% ఖచ్చితత్వం సరిపోయినప్పటికీ Embibeలో అంతకంటే ఎక్కువ ఖచ్చితత్వం అవసరం అవుతుంది. ఎందుకంటే దాని ద్వారా మానవుల ద్వారా ధృవీకరణ జరిపే పని తగ్గుతుంది. టెక్ట్స్ మైనింగ్ సారూప్యతతో ప్రస్తుత అభివృద్ధిలో Embibe ఒక సాంద్రతర వెక్టర్‌ని (చిత్రం మరియు టెక్ట్స్ కూర్పు) రూపొందిస్తోంది. ఇందుకు సారూప్యత కలిగిన అల్గారిథంతోపాటూ 90% ఖచ్చితత్వం లక్ష్యంగా పెట్టుకోవాలి.

రెఫెరెన్స్

[1] Faldu, Keyur, Amit Sheth, Prashant Kikani, and Hemang Akabari. “KI-BERT: Infusing Knowledge Context for Better Language and Domain Understanding.” arXiv preprint arXiv:2104.08145 (2021).

[2] Gaur, Manas, Keyur Faldu, and Amit Sheth. “Semantics of the Black-Box: Can knowledge graphs help make deep learning systems more interpretable and explainable?.” IEEE Internet Computing 25, no. 1 (2021): 51-59.

[3] Gaur, Manas, Ankit Desai, Keyur Faldu, and Amit Sheth. “Explainable AI Using Knowledge Graphs.” In ACM CoDS-COMAD Conference. 2020.