ଡିଡୁପ୍ଲିକେସନ୍: ଏକ ବୈଷୟିକ ଅବଲୋକନ
ଏକ EdTech ପ୍ଲାଟଫର୍ମ ଭାବରେ, Embibe ଶିକ୍ଷଣ ବସ୍ତୁର ଏକ ବିଶାଳ ପୁଲ୍ର ଯତ୍ନ ନିଏ ଏବଂ ପରିଚାଳନା କରେ, ଯାହା ଶିକ୍ଷାର୍ଥୀମାନଙ୍କୁ ସେମାନଙ୍କର ଶିକ୍ଷଣ ଆବଶ୍ୟକତା ପୂରଣ କରିବା ପାଇଁ ପରିବେଷଣ କରାଯାଇପାରେ । ବ୍ୟବହାରକାରୀଙ୍କୁ ଯେକୌଣସି ଏକାଡେମିକ୍ କନସେପ୍ଟ ସହିତ ପରିଚିତ କରାଇବା ପାଇଁ ଏହି ବିଷୟବସ୍ତୁ ପୁଲ୍ରେ ମୁଖ୍ୟତଃ ଭିଡିଓ, ଏକ୍ସପ୍ଲେନର୍, ଇଣ୍ଟରାକ୍ଟିଭ୍ ଲର୍ଣ୍ଣିଂ ଉପାଦାନ ପରି ବିଷୟବସ୍ତୁ ଥାଏ । ଆହୁରି ମଧ୍ୟ, ଏଥିରେ ପ୍ରଶ୍ନଗୁଡିକ ରହିଥାଏ ଯାହା ଗେମିଫାଏଡ୍ ପ୍ରାକ୍ଟିସ୍ ଏବଂ ଟେଷ୍ଟ ଅଭିଜ୍ଞତା ପ୍ରଦାନ କରିବାକୁ ଠିକ୍ ଭାବରେ ଏକତ୍ର ହୋଇପାରିବ । Embibe ରେ ପ୍ରାକ୍ଟିସ୍ ଏବଂ ଟେଷ୍ଟ ଷ୍ଟୋରୀଲାଇନ୍ ଅଧୀନରେ ବ୍ୟବହାରକାରୀ ଯୋଗଦାନ ଆମକୁ ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଏକାଡେମିକ୍, ଆଚରଣଭିତ୍ତିକ, ଟେଷ୍ଟ-ଦେବା, ଟେଷ୍ଟ-ସ୍ତର, ଏବଂ ବ୍ୟବହାରକାରୀ ପ୍ରୟାସ ସମ୍ବନ୍ଧୀୟ ବିଶେଷତା ପ୍ରଦାନ କରେ । ଯାହା ଆମକୁ ବ୍ୟବହାରକାରୀଙ୍କ ଶିକ୍ଷଣ ଯାତ୍ରାକୁ ଜାରି ରଖିବାକୁ ଏବଂ ଶିକ୍ଷାର୍ଥୀମାନଙ୍କୁ ସେମାନଙ୍କର ସର୍ବାଧିକ ସମ୍ଭାବନାକୁ ଅନଲକ୍ କରିବାରେ ସାହାଯ୍ୟ କରେ । ପ୍ରାକ୍ଟିସ୍ ଓ ଟେଷ୍ଟ ବୈଶିଷ୍ଟ୍ୟଗୁଡିକର ମହତ୍ତ୍ୱକୁ ଦୃଷ୍ଟିରେ ରଖି ଆମେ ସର୍ବାଧିକ ବ୍ୟବହାରକାରୀ ଯୋଗଦାନ ଓ ସ୍ମରଣ ହାସଲ କରିବାରେ ବିଶ୍ୱାସ କରୁ ।
ବିଭିନ୍ନ ଉତ୍ସ ମାଧ୍ୟମରେ ପ୍ରଶ୍ନର ପୁଲ୍ ପ୍ରସ୍ତୁତ କରାଯାଇଥାଏ – ଆମର ନିଯୁକ୍ତ ଅଧ୍ୟାପକ ଓ ବିଷୟ ବିଶେଷଜ୍ଞ, ଏକାଡେମିକ୍ କନସଲଟାଣ୍ଟ୍ ଓ ଅନ୍ୟାନ୍ୟ କର୍ମଚାରୀ ଏହି ପ୍ରକ୍ରିୟାରେ ଜଡିତ । ପୁଲ୍ରେ ଉତ୍ତମ ପାଠ୍ୟପୁସ୍ତକ ଓ ରେଫରେନ୍ସ ସାମଗ୍ରୀର ପ୍ରଶ୍ନ ମଧ୍ୟ ଥାଏ । ବିଷୟବସ୍ତୁ ପୁଲ୍ ଚଲାଇବାରେ ଅନେକ ଉପାଦନର ସମ୍ପୃକ୍ତି ଥାଏ ଏବଂ ବିଷୟବସ୍ତୁର ମହତ୍ତ୍ୱକୁ ଦୃଷ୍ଟିରେ ରଖି ବିଷୟବସ୍ତୁ ଗୁଣବତ୍ତାକୁ ବଜାୟ ରଖିବା ନିହାତି ଜରୁରୀ ହୋଇଥାଏ । ସ୍କେଲ୍ରେ ବିଷୟବସ୍ତୁ କ୍ୟୁରେସନ୍ ସହିତ ଜଡିତ ବିଭିନ୍ନ ଗୁଣବତ୍ତା ସମ୍ବନ୍ଧୀୟ ବିଷୟଗୁଡ଼ିକ ଅଛି, ଯେପରିକି କଣ୍ଟେଣ୍ଟ୍ ଡୁପ୍ଲିକେସନ୍, ପ୍ରଶ୍ନ ସଠିକତା, ଅସମ୍ପୂର୍ଣ୍ଣ ପ୍ରଶ୍ନ, ଭୁଲ୍ ମେଟା ଟ୍ୟାଗିଂ ଆଦି ଅନେକ । ଏହି ଆର୍ଟିକିଲ୍ରେ, ଆମେ କଣ୍ଟେଣ୍ଟ୍ ଡୁପ୍ଲିକେସନ୍ (ଦୋହରାଇବା) ପ୍ରସଙ୍ଗ ଏବଂ ଏହାର ମୁକାବିଲା ପାଇଁ Embibeରେ ବ୍ୟବହୃତ ବୌଦ୍ଧିକ ପ୍ରଣାଳୀ ବିଷୟରେ ଆଲୋଚନା କରିବୁ ।
କଣ୍ଟେଣ୍ଟ୍ ଡୁପ୍ଲିକେସନ୍ ଓ ରିଜୋଲ୍ୟୁସନ୍
ସିଷ୍ଟମ୍ରେ କଣ୍ଟେଣ୍ଟ୍ ଡୁପ୍ଲିକେସନ୍ (ଟେଷ୍ଟ/ପ୍ରାକ୍ଟିସ୍ ପ୍ରଶ୍ନାବଳୀ/ପ୍ରଶ୍ନ) ଫଳରେ ବ୍ୟବହାରକାରୀଙ୍କ ଉପଯୋଗିତା ଉପରେ ଏହା ପ୍ରତିକୂଳ ପ୍ରଭାବ ପକାଇଥାଏ । ଭଲ ଭାବରେ ବୁଝିବାକୁ ହେଲେ ଏହାକୁ “ଫେସବୁକ୍ କିମ୍ବା ଇନଷ୍ଟାଗ୍ରାମ୍ ସହିତ ମିଳାଇ ଦେଖନ୍ତୁ । ଆପଣ ଏହାକୁ ସ୍କ୍ରୋଲିଂ କଲାବେଳେ ସମାନ ଭିଡିଓ/ଚିତ୍ର ବାରମ୍ବାର ଦେଖିଥାନ୍ତି । ଏହାଫଳରେ ସାଇଟ୍କୁ ନେଇ ଖରାପ ଅଭିଜ୍ଞତା ଆସିଥାଏ ଏବଂ ଏପରି ବାରମ୍ବାର ହେଲେ ବ୍ୟବହାରକାରୀମାନେ ଏହାକୁ ସବୁଦିନ ପାଇଁ ଛାଡି ଦେଇପାରନ୍ତି ।” ସେହିଭଳି, ଯଦି ଏକ ପ୍ରାକ୍ଟିସ୍ କିମ୍ବା ଟେଷ୍ଟ ସେସନ୍ରେ ସମାନ ପ୍ରଶ୍ନ ବାରମ୍ବାର ଆସେ, ଏହା ବ୍ୟବହାରକାରୀଙ୍କ ସଂଖ୍ୟାରେ ହ୍ରାସ ହେବାର ଏକ କାରଣ ହୋଇପାରେ ।
Embibeରେ, ଏହି ସମସ୍ୟାର ମୁକାବିଲା ପାଇଁ, ଆମେ ଏକ ହାଇବ୍ରିଡ୍ ପଦ୍ଧତିକୁ ନିୟୋଜିତ କରିଛୁ ଯାହା ସିଣ୍ଟାକ୍ସ (ଏଡିଟ୍-ଦୂରତା) ଆଧାରିତ ପଦକ୍ଷେପ ଏବଂ ଡିପ୍ ଲର୍ଣ୍ଣିଂ-ଆଧାରିତ (ResNet-18 Convolutional Neural Network Architecture) ଘନ ଭେକ୍ଟର ସମାନତାକୁ ପ୍ରଶ୍ନଗୁଡ଼ିକର ଦୋହରା ପ୍ରଶ୍ନକୁ ଚିହ୍ନଟ କରିବା ପାଇଁ ବ୍ୟବହାର କରିଥାଏ । ଆମେ ପାଠ୍ୟ ବିଷୟବସ୍ତୁରେ ଫୁଲ୍ ଟେକ୍ସଟ୍ କ୍ୱୋରିଜ୍ ପରି ଇଲାଷ୍ଟିକ୍ ସର୍ଚ୍ଚର (ଲୁସେନ୍) ମୌଳିକ କାର୍ଯ୍ୟକାରିତାକୁ ବ୍ୟବହାର କରୁ ଏବଂ ଡିଡୁପ୍ଲିକେସନ୍ ପାଇପଲାଇନକୁ କାର୍ଯ୍ୟକାରୀ କରିବା ପାଇଁ ଡେନ୍ସ ଭେକ୍ଟର ଫିଲ୍ଡରେ ସାମ୍ପ୍ରତିକ ସ୍କ୍ରିପ୍ଟ ସ୍କୋର୍ କ୍ୱୋରିଜ୍ ବ୍ୟବହାର କରିଥାଉ । ଆମର ଶିକ୍ଷଣ ବସ୍ତୁଗୁଡ଼ିକ (ପ୍ରଶ୍ନଗୁଡିକ)ରେ ପାଠ୍ୟ (ପ୍ରଶ୍ନ ପାଠ୍ୟ, ଉତ୍ତର ପାଠ୍ୟ) ସହିତ ଚିତ୍ର/ଚିତ୍ର ସୂଚନା (ଚିତ୍ର, ଅଙ୍କନ, ଇତ୍ୟାଦି) ଥାଏ ଏବଂ ପାଇପଲାଇନ ବିଷୟବସ୍ତୁ ପୁଲ୍ରୁ ସଠିକ୍ ଡୁପ୍ଲିକେସନ୍ ଚିହ୍ନଟ କରିବାକୁ ଉଭୟକୁ ବିଚାରକୁ ନେଇଥାଏ । ସିଷ୍ଟମ୍ରେ ଡୁପ୍ଲିକେଟ୍ ପ୍ରଶ୍ନର ସୃଷ୍ଟି ଏବଂ ଗ୍ରହଣକୁ ରୋକିବା ପାଇଁ ଆମେ ସମାନ ଆଭିମୁଖ୍ୟରେ ଆବୃତ ଏକ ରିଅଲ୍-ଟାଇମ୍ ଉପଯୋଗିତାକୁ ମଧ୍ୟ ସକ୍ଷମ କରିଛୁ; ଏହା ଡୁପ୍ଲିକେସନ୍ ପାଇଁ ଏକ ଗେଟ୍-କିପିଂ ଭଳି କାମ କରେ । ଜ୍ଞାନ ସଚେତ ମଡେଲ୍ଗୁଡିକ ବ୍ୟବହାର କରି ଓ ଗଭୀର ଶିକ୍ଷଣ ମଡେଲ୍ଗୁଡିକରୁ ବ୍ୟାଖ୍ୟାତ୍ମକ ସୂଚନା ଆକ୍ସେସ୍ କରି ପାଠ୍ୟର ଅର୍ଥଗତ ସମାନତାକୁ ଆହୁରି ବଢାଇ ଦିଆଯାଇପାରେ [1][2] । ମଡେଲ୍ଗୁଡିକର ଫଳାଫଳ ଉପରେ ନିର୍ଭର କରିବାକୁ ବର୍ଣ୍ଣିତ ମଡେଲ୍ ସମୂହ ଏକାଡେମିସିଆନଙ୍କ ମଧ୍ୟରେ ବିଶ୍ୱାସ ବୃଦ୍ଧି କରିପାରେ [3] ।
ନିମ୍ନରେ ଚିତ୍ରିତ ଡାଟା ଫ୍ଲୋ ଡାଇଗ୍ରାମ୍ ମାଧ୍ୟମରେ ଆମେ ଏହି ପାଇପଲାଇନକୁ ଉପସ୍ଥାପନ କରିବାକୁ ଚେଷ୍ଟା କରିଛୁ:
ଥ୍ରେସ୍ହୋଲ୍ଡ ଚୟନ:
ବିଷୟବସ୍ତୁ ଡିଡୁପ୍ଲିକେସନ୍ ପାଇପଲାଇନ ପାଇଁ, ଥ୍ରେସ୍ହୋଲ୍ଡ ଚୟନ / ଟ୍ୟୁନିଂ ସମସ୍ୟାର ମୂଳ ଅଂଶ ଅଟେ । ଏହା ସମାନ ଏବଂ ଡୁପ୍ଲିକେଟ୍ ପ୍ରଶ୍ନଗୁଡ଼ିକୁ ଅଲଗା କରିବାରେ ସାହାଯ୍ୟ କରେ । ଏଠାରେ, ଉପଯୁକ୍ତ ସୀମା ଚିହ୍ନଟ କରିବାକୁ, ଆମେ ଏକ ଲେବଲ୍ ଡାଟାସେଟ୍ ପ୍ରସ୍ତୁତ କରିବାରେ ବିଷୟ ବିଶେଷଜ୍ଞଙ୍କ ସାହାଯ୍ୟ ନେଇଛୁ, ଯେଉଁଠାରେ ସେମାନଙ୍କୁ ଏକ ଆଙ୍କର୍ ପ୍ରଶ୍ନ ଓ ପ୍ରାର୍ଥୀଙ୍କ ତାଲିକା ଦିଆଯାଇଛି । ସେମାନଙ୍କୁ ଯୋଡାଗୁଡ଼ିକୁ ଡୁପ୍ଲିକେଟ୍ କିମ୍ବା ନଟ୍-ଡୁପ୍ଲିକେଟ୍ ଭାବରେ ଚିହ୍ନିତ କରିବାକୁ କୁହାଯାଇଥିଲା । ପ୍ରାର୍ଥୀଙ୍କୁ ପ୍ରସ୍ତୁତି କରିବା ପାଇଁ, ଇଲେଷ୍ଟିକସର୍ଚ୍ଚର ଫୁଲ୍ ଟେକ୍ସଟ୍ କ୍ୱୋରିଜ୍ ଓ ଇମେଜ୍ ଘନ ଭେକ୍ଟରରେ ସ୍କ୍ରିପ୍ଟ ସ୍କୋର୍ କ୍ୱୋରିଜ୍ ବ୍ୟବହାର କରି ବିଷୟବସ୍ତୁ ପୁଲ୍ରୁ ଟପ୍ k ପ୍ରାର୍ଥୀ ଚୟନ କରାଯାଇଥିଲା ।
ବର୍ତ୍ତମାନ, ସଠିକ୍ ଥ୍ରେସ୍ହୋଲ୍ଡ ମୂଲ୍ୟ ବାଛିବା ପାଇଁ, ଏକ ଗ୍ରୀଡ୍ ସର୍ଚ୍ଚ ବିଭିନ୍ନ ଥ୍ରେସ୍ହୋଲ୍ଡ ମୂଲ୍ୟ ଉପରେ (ରେଞ୍ଜ: 0.5 ରୁ 1.0, ଷ୍ଟେପ୍ ସାଇଜ୍: 0.05) ଲେବଲ୍ ହୋଇଥିବା ଡାଟାସେଟ୍ ପାଇଁ ସର୍ବାଧିକ ସଠିକତା ସ୍କୋର୍ ଲକ୍ଷ୍ୟ ସହିତ ନିୟୋଜିତ ହୋଇଥିଲା । ଆଙ୍କର୍ ପ୍ରଶ୍ନଗୁଡ଼ିକ ପାଇଁ ଏଠାରେ ଟପ୍ k ପ୍ରାର୍ଥୀ ଚୟନ କରାଯାଇଥିଲା ଏବଂ ସଠିକତା ସଂଖ୍ୟା ବିଭିନ୍ନ ଥ୍ରେସ୍ହୋଲ୍ଡ ମୂଲ୍ୟରେ କଏଦ ହୋଇଥିଲା । ସମାନତା ସ୍କୋର୍ ଥ୍ରେସ୍ହୋଲ୍ଡ ଯାହା ସର୍ବାଧିକ ସଠିକତା ପ୍ରଦାନ କରେ, ତାହା ଅନ୍ତିମ ଥ୍ରେସ୍ହୋଲ୍ଡ ମୂଲ୍ୟ ଭାବରେ ଚୟନ କରାଯାଇଥିଲା ।
ବେଞ୍ଚମାର୍କିଂ ପଦ୍ଧତି
ହୋଲ୍ଡ-ଆଉଟ୍ ଲେବଲ୍ ସେଟ୍କୁ ଦେଖି ଉଲ୍ଲେଖିତ ଡୁପ୍ଲିକେଟ୍ ଚିହ୍ନଟ ପ୍ରକ୍ରିୟାର ଏକ ବେଞ୍ଚମାର୍କିଂ କରାଯାଇଛି । ନିମ୍ନରେ ଥିବା ସାରଣୀରେ ବିଶେଷତା ଉଲ୍ଲେଖ କରାଯାଇଛି:
ଡାଟା | ସେଟ୍ ଆକାର | ସଠିକତା (ଠିକ୍ ଭାବେ ଚିହ୍ନିତ) |
ଲେବେଲଡ୍ ପ୍ରଶ୍ନ ଯୋଡିରେ ଅଛି : କେବଳ ଟେକ୍ସଟ୍, ଟେକ୍ସଟ୍ + ଚିତ୍ର, କେବଳ ଚିତ୍ର | 5114 | 83.1% (4250) |
ଲେବଲଡ୍ ପ୍ରଶ୍ନ ଯୋଡିରେ ଅଛି : ଟେକ୍ସଟ୍ + ଚିତ୍ର, କେବଳ ଚିତ୍ର | 2710 | 80.1% (2193) |
ନିଷ୍କର୍ଷ ଏବଂ ଭବିଷ୍ୟତ କାର୍ଯ୍ୟ
ଯଦିଓ ଅନେକ ମେସିନ୍ ଲର୍ଣ୍ଣିଂ ଟାସ୍କରେ 80%+ ସଠିକତା ଯଥେଷ୍ଟ ହୋଇଥାଏ, ମାନୁଆଲ୍ ଯାଞ୍ଚକୁ ଆହୁରି ହ୍ରାସ କରିବା ପାଇଁ Embibe ଯେପରି ଭାବେ କାର୍ଯ୍ୟ କରୁଛି, ତାହା ଅଧିକ ସଠିକ୍ ମଡେଲ୍ ଆବଶ୍ୟକ କରେ । ଅର୍ଥଗତ ସମାନତା ଭିତ୍ତିକ ପାଠ୍ୟ ଗନ୍ତାଘରରେ ସାମ୍ପ୍ରତିକ ବିକାଶ ସହିତ Embibe 90%+ ସଠିକତାର ଲକ୍ଷ୍ୟରେ ଘନ ଭେକ୍ଟର (ଚିତ୍ର ଏବଂ ପାଠ୍ୟ ଏମ୍ବେଡିଂ) ଆଧାରିତ ବିଷୟବସ୍ତୁ ସମାନତା ଆଲଗୋରିଦମ୍ ପ୍ରସ୍ତୁତ କରୁଛି ।