ನಕಲೀಕರಣ : ತಾಂತ್ರಿಕ ಪರಿವೀಕ್ಷಣೆ

ನಕಲೀಕರಣ : ತಾಂತ್ರಿಕ ಪರಿವೀಕ್ಷಣೆ

EdTech ವೇದಿಕೆಯಾಗಿ, Embibe ಕೂಡ ವಿದ್ಯಾರ್ಥಿಗಳ ಕಲಿಕೆಯ ಬೇಡಿಕೆಗೆ ಅನುಗುಣವಾಗಿ, ಕಲಿಕೆಯ ವಿಶಾಲ ವಿಷಯಗಳ ಸಮೂಹವನ್ನು ಕೂಲಂಕುಶವಾಗಿ ಅವಲೋಕಿಸಿ ಮತ್ತು ನಿರ್ವಹಿಸುತ್ತದೆ. ಈ ವಿಷಯ ಸಂಚಯ ಪ್ರಾಥಮಿಕವಾಗಿ ವಿಡಿಯೋಗಳು, ವಿವರಣೆಗಳು, ಸಂವಾದದ ಮೂಲಕ ಕಲಿಕೆಯ ಅಂಶಗಳ ಮೂಲಕ ಬಳಕೆದಾರರಿಗೆ ಶೈಕ್ಷಣಿಕ ವಿಷಯದ ಕುರಿತು ಶಿಕ್ಷಣ ವಿಧಾನ ಒಳಗೊಂಡಿದೆ. ಅಲ್ಲದೆ, ಆಟದ ರೀತಿಯ ಅಭ್ಯಾಸ ಮತ್ತು ಪರೀಕ್ಷಾ ಅನುಭವಗಳನ್ನು ಒದಗಿಸಲು ಬುದ್ಧಿವಂತಿಕೆಯಿಂದ ಒಟ್ಟುಗೂಡಿಸಬಹುದಾದ ಪ್ರಶ್ನೆಗಳನ್ನು ಇದು ಒಳಗೊಂಡಿದೆ. Embibeನಲ್ಲಿ ಅಭ್ಯಾಸದಲ್ಲಿ ನಿರತರಾಗುವ ಬಳಕೆದಾರರು ಮತ್ತು ಪರೀಕ್ಷಾ ಹಂದರವು ಕೆಲವು ಶೈಕ್ಷಣಿಕ ನಿರ್ಣಯ, ವರ್ತನೆ, ಪರೀಕ್ಷೆ-ತೆಗೆದುಕೊಳ್ಳುವಿಕೆ, ಪರೀಕ್ಷೆಯ ಮಟ್ಟ ಮತ್ತು ಬಳಕೆದಾರರ ಪರಿಶ್ರಮ-ಬಳಕೆದಾರರ ಪ್ರಯಾಣವನ್ನು ಮುನ್ನಡೆಸಲು ನಮಗೆ ಸಹಾಯ ಮಾಡುವ ಸಂಬಂಧಿತ ವಿಶಿಷ್ಟಗಳು ಮತ್ತು ವಿದ್ಯಾರ್ಥಿಗಳ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೆಚ್ಚಿಸುವಲ್ಲಿ ಸಹಾಯವಾಗುತ್ತದೆ. ಅಭ್ಯಾಸಕ್ಕೆ ಮತ್ತು ಪರೀಕ್ಷಾ ವೈಶಿಷ್ಟ್ಯಗಳ ಪ್ರಾಧ್ಯಾನತೆಯನ್ನು ಗಮನಿಸಿದರೆ, ಬಳಕೆದಾರರ ಗರಿಷ್ಟ ಮಟ್ಟದ ಪಾಲ್ಗೊಳ್ಳುವಿಕೆ ಮತ್ತು ಧಾರಣ ಇರಬೇಕು ಎಂಬುದು ನಮ್ಮ ನಂಬಿಕೆ. 

ಪ್ರಶ್ನೆಗಳ ಸಂಚಯವನ್ನು ಸಿದ್ಧಪಡಿಸಲು ಅನೇಕ ರೀತಿಯ ಮೂಲಗಳಿವೆ. ನಮ್ಮ ಸಂಸ್ಥೆಯಲ್ಲಿ ಆಂತರಿಕ ಬೋಧಕರು ಮತ್ತು ವಿಷಯ ತಜ್ಞರು, ಶೈಕ್ಷಣಿಕ ಸಲಹೆಗಾರರು ಮತ್ತು ಇತರ ಸಿಬ್ಬಂದಿ ಈ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ಭಾಗಿಯಾಗಿದ್ದಾರೆ. ಹೆಸರಾಂತ ಪುಸ್ತಕಗಳಿಂದ ಮತ್ತು ಉಲ್ಲೇಖ ಮಾಹಿತಿಗಳಿಂದ ಪ್ರಶ್ನೆಗಳ ಸಂಚಯ ಸಿದ್ಧಪಡಿಸಲಾಗಿದೆ. ವಿಷಯ ಸಂಚಯವನ್ನು ಸಿದ್ಧಪಡಿಸಲು ಹಲವಾರು ಘಟಕಗಳು ವಿಷಯಗಳ ಕಡೆಗೆ ಗಮನ ಹರಿಸಲಾಗಿದೆ ಮತ್ತು ಬಳಕೆದಾರರ ಪಾಲ್ಗೊಳ್ಳುವಿಕೆಗೆ ಉತ್ತಮ ಗುಣಮಟ್ಟದ ವಿಷಯವನ್ನು ಪರಿಶೀಲಿಸಲಾಗುತ್ತದೆ. ವಿಷಯ ಕ್ಯೂರೇಶನ್‌ನಲ್ಲಿ ಹಲವಾರು ರೀತಿಯ ಗುಣಮಟ್ಟದ ವಿವಾದಾಂಶಗಳಿವೆ. ಅಂದರೆ ಲೇಖನದ ನಕಲೀಕರಣ, ಪ್ರಶ್ನೆಗಳನ್ನು ಸರಿಪಡಿಸುವ ವಿವಾದಾಂಶ, ಅಪೂರ್ಣ ಪ್ರಶ್ನೆಗಳು, ತಪ್ಪಾದ ಮೆಟಾ ಟ್ಯಾಗಿಂಗ್, ಇವೆ ಮುಂತಾದವುಗಳನ್ನು ಹೆಸರಿಸಹುದು. ಈ ಲೇಖನದಲ್ಲಿ, ನಾವು ವಿಷಯ ನಕಲೀಕರಣ ಸಮಸ್ಯೆ ಮತ್ತು ಅದನ್ನು ನಿಭಾಯಿಸಲು Embibeನಲ್ಲಿ ಬಳಸುತ್ತಿರುವ ಬುದ್ಧಿವಂತ ವ್ಯವಸ್ಥೆಯ ಕುರಿತು ಚರ್ಚಿಸುತ್ತಿದ್ದೇವೆ.

ವಿಷಯದ ನಕಲೀಕರಣ ಮತ್ತು ನಿರ್ಣಯ:

ವಿಷಯ ನಕಲೀಕರಣ (ಪರೀಕ್ಷೆ/ಅಭ್ಯಾಸದ ಸಮಸ್ಯೆ/ಪ್ರಶ್ನೆಗಳು) ನಮ್ಮ ತಾಂತ್ರಿಕ ವ್ಯವಸ್ಥೆಯಲ್ಲಿ ಇದಕ್ಕೆ ಸಂಬಂಧಿಸಿದ ಯಾವುದಾದರೂ ಒಂದು ಸಮಸ್ಯೆ ಬಳಕೆದಾರರ ಭಾಗಿತ್ವದಲ್ಲಿ ಪ್ರಭಾವ ಬೀರುತ್ತದೆ. ಉತ್ತಮವಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು, ಇದನ್ನು Facebook ಅಥವಾ Instagram ನೊಂದಿಗೆ ಹೋಲಿಸಬಹುದು, ಬಳಕೆದಾರರು ಸ್ಕ್ರಾಲ್ ಮಾಡುವಲ್ಲಿ ನಿರತರಾಗಿರುವಾಗ ಅದೇ ವೀಡಿಯೊ/ಚಿತ್ರವನ್ನು ಪದೇ ಪದೇ ಪ್ರದರ್ಶಿಸುತ್ತದೆ; ಒಪ್ಪಿಕೊಳ್ಳಿ, ಇದರಿಂದ ಬಳಕೆದಾರನ ಮಗ್ನತೆಗೆ ಭಂಗವಾಗುತ್ತದೆ. ಕೊನೆಗೆ ಬಳಕೆದಾರ ವೇದಿಕೆಯನ್ನೇ ತೊರೆಯಬಹುದು.” ಅದೇ ರೀತಿ, ಒಂದೇ ಪ್ರಶ್ನೆಯನ್ನು ಒಂದೇ ಅಭ್ಯಾಸ ಅಥವಾ ಪರೀಕ್ಷಾ ಅವಧಿಯಲ್ಲಿ ವಿದ್ಯಾರ್ಥಿಗಳಿಗೆ ನೀಡಿದರೆ, ಅದು ಖಂಡಿತವಾಗಿಯೂ ಬಳಕೆದಾರರ ಇಳಿಕೆಗೆ ಕಾರಣವಾಗುತ್ತದೆ.

Embibe ನಲ್ಲಿ, ಈ ಸಮಸ್ಯೆಯನ್ನು ನಿಭಾಯಿಸಲು, ನಾವು ಉನ್ನತ ಮಟ್ಟದ ನಿರ್ವಾಹಣೆಯನ್ನು ಅಳವಡಿಸಿದ್ದೇವೆ. ಇದರಲ್ಲಿ ವಾಕ್ಯರಚನೆಯನ್ನು ರಚಿಸಿದ್ದೇವೆ (ಪರಿಷ್ಕರಣೆ-ಅವಕಾಶ). ಮಾಪನದ ಆಧಾರದ ಮೇಲೆ ಮತ್ತು ಆಳವಾದ ಅಧ್ಯಯನದ ಆಧಾರದ ಮೇಲೆ (ResNet-18 Convolutional Neural Network Architecture) ಪ್ರಶ್ನೆಗಳಿಗೆ ನಕಲುಗಳನ್ನು ಗುರುತಿಸಲು ದಟ್ಟವಾದ ವೆಕ್ಟರ್ ಹೋಲಿಕೆಗಳನ್ನು  ಮಾಡಲಾಗುವುದು. ನಾವು ಸ್ಥಿತಿಸ್ಥಾಪಕತ್ವದ ಹುಡುಕಾಟವನ್ನು ಬಳಸುತ್ತೇವೆ (Lucene). ಇದರ ಮೂಲ ಕಾರ್ಯ ಬರಹದ ಲೇಖನದ ಮೇಲೆ ಪೂರ್ಣ ಪ್ರಶ್ನೆಗಳನ್ನು  ಹುಟ್ಟುಹಾಕುವುದು ಮತ್ತು ಇತ್ತೀಚಿನ ಬರವಣಿಗೆಯ ಅಂಕಗಳ ಪ್ರಶ್ನೆಗಳು ದಟ್ಟವಾದ ವೆಕ್ಟರ್ ಹೋಲಿಕೆಯ ಕ್ಷೇತ್ರದಲ್ಲಿ ನಕಲೀಕರಣದ ಕಾರ್ಯದ ಮೇಲೆ ಸುಧಾರಣೆಯನ್ನು ತರುವುದು. ನಮ್ಮ ಕಲಿಕೆಯ ಉದ್ದೇಶವು (ಪ್ರಶ್ನೆಗಳು) ಬರವಣಿಗೆಗೆ ಆದ್ಯತೆಯನ್ನು (ಪ್ರಶ್ನೆ ಪಠ್ಯ, ಉತ್ತರ ಪಠ್ಯ) ನೀಡಲಾಗಿದೆ. ಇದರ ಜೊತೆಗೆ ಚಿತ್ರ/ಚಿತ್ರಸಹಿತ ಮಾಹಿತಿ (ಚಿತ್ರಗಳು, ರೇಖಾಚಿತ್ರಗಳು, ಇತ್ಯಾದಿ) ಸಿಗುತ್ತದೆ. ಈ  ಬಗೆಯ ಪೈಪ್ಲೈನ್ ಪರಿಗಣಿಸುವಿಕೆಯಿಂದ ವಿಷಯದ ಸಂಚಯದಲ್ಲಿ ಆಗುವ ಸಮರ್ಪಕ  ನಕಲೀಕರಣವನ್ನು ಕಂಡುಹಿಡಿಯಲಾಗುವುದು. ನೈಜ ಸಮಯದ ಬಳಕೆಯನ್ನು ನಾವು ಅಳವಡಿಸಿದ್ದೇವೆ. ಅದರ ಉದ್ದೇಶ ಒಂದೇ ತರದ ಸೃಷ್ಟಿಯನ್ನು ತಡೆಯಲು ಅದೇ ವಿಧಾನವನ್ನು ಅನುಸರಿಸಲಾಗಿದೆ . ವ್ಯವಸ್ಥೆಯಲ್ಲಿ ನಕಲಿ ಪ್ರಶ್ನೆಗೆ ಕಡಿವಾಣ ಹಾಕುವುದು ಒಂದು ರೀತಿಯಲ್ಲಿ ನಕಲೀಕರಣದ ದ್ವಾರವನ್ನು ಕಾಯುವಂತೆ.

ನಾವು ಒಟ್ಟಾರೆ ಸಾರಾಂಶವನ್ನು ದತ್ತಾಂಶ ರೇಖಾಚಿತ್ರದ ಮೂಲಕ ಈ  ಕೆಳಗೆ ಚಿತ್ರಿಸಲಾಗಿದೆ:

Open in New Window

ಪ್ರವೇಶದ ಆಯ್ಕೆ:

ವಿಷಯದ ನಕಲೀಕರಣದ ಪೈಪ್‌ಲೈನ್‌ಗೆ ಮೊದಲ ಆಯ್ಕೆ/ಹೊಂದಿಸುವುದು ಸಮಸ್ಯೆಯ ಮೂಲವಾಗಿದೆ. ಈ ವಿಧಾನದಿಂದ ನಕಲೀಕರಣವಾದ ಪ್ರಶ್ನೆಗಳನ್ನು ಒಂದೇ ತರದ ಮತ್ತು ನಕಲಿಸಲಾಗದ ಪ್ರಶ್ನೆಗಳಿಂದ ಬೇರ್ಪಡಿಸಲಾಗುವುದು. ಇಲ್ಲಿ, ಸೂಕ್ತ ಪ್ರವೇಶಗಳನ್ನು ಗುರುತಿಸಲು, ಲೇಬಲ್ ಮಾಡಲಾದ ದತ್ತಾಂಶ ಸಮುಚ್ಚಯ ತಯಾರಿಸುವಲ್ಲಿ ನಾವು ವಿಷಯ ತಜ್ಞರ ಸಹಾಯವನ್ನು ಪಡೆದುಕೊಂಡಿದ್ದೇವೆ, ಅಲ್ಲಿ ಅವರಿಗೆ ಆಂಕರ್ ಪ್ರಶ್ನೆ ಮತ್ತು ಅಭ್ಯರ್ಥಿಗಳ ಪಟ್ಟಿಯನ್ನು ನೀಡಲಾಗಿದೆ. ನಕಲಿನ ಜೊತೆ ಅಥವಾ ನಕಲಿಸಲಾಗದನ್ನು ಗುರುತು ಮಾಡಲು ಸೂಚಿಸಿದ್ದಾರೆ. ಅಭ್ಯರ್ಥಿಗಳ ಸೃಷ್ಟಿಗಾಗಿ, ಮೇಲಿನ k ಅಭ್ಯರ್ಥಿಗಳು ವಿಷಯ ಸಂಚಯದಲ್ಲಿ ಸ್ಥಿತಿ ಸ್ಥಾಪಕತ್ವದ ಪೂರ್ಣ ಪ್ರಶ್ನಾ ಬರವಣಿಗೆಯ ಮೂಲಕ ಮತ್ತು ಚಿತ್ರದ ಸಂದಣಿಯ ವೆಕ್ಟರ್‌ನ ಮೇಲೆ ಬರಹದ ಅಂಕಗಳ ಪ್ರಶ್ನೆಗಳ ಆಯ್ಕೆ ಮಾಡಲಾಗಿದೆ.

ಈಗ, ಸೂಕ್ತ ಪ್ರವೇಶ ಆಯ್ಕೆ ಮಾಡಲು ವಿಭಿನ್ನ ಆರಂಭಿಕ ಮೌಲ್ಯಗಳ ಮೇಲೆ ಚೌಕಟ್ಟಿನ ಹುಡುಕಾಟವನ್ನು (ಶ್ರೇಣಿ: 0.5 ರಿಂದ 1.0, ಹಂತ-ಅಳತೆ: 0.05) ಬಳಸಲಾಗಿದೆ. ಇದನ್ನು ಪಟ್ಟಿ ಮಾಡಿದ ದತ್ತಾಂಶ ಸಮುಚ್ಚಯದ ಜೊತೆಯಲ್ಲಿ ಗರಿಷ್ಟ ನಿಖರತೆಯ ವಸ್ತುನಿಷ್ಟ ಅಂಕಗಳ ಜೊತೆ ಅನ್ವೇಷಿಸಲಾಗಿದೆ. ಇಲ್ಲಿ ಮೇಲಿನ k ಅಭ್ಯರ್ಥಿಗಳನ್ನು ಅಂಕರ್ ಪ್ರಶ್ನೆಗಳಿಗೆ ಸೃಷ್ಟಿಸಲಾಗುವುದು. ನಿಖರ ಸಂಖ್ಯೆಯನ್ನು ಬೇರೆ ಬೇರೆ ಪ್ರಾರಂಭಿಕ ಬೆಲೆಯನ್ನು ತೆಗೆದುಕೊಳ್ಳಲಾಗುವುದು. ಹೋಲಿಕೆ ಇರುವ ಅಂಕಗಳ ಪ್ರವೇಶವನ್ನು ಗರಿಷ್ಠ ನಿಖರತೆಯನ್ನು ನೀಡುವ ಅಂತಿಮ ಪ್ರವೇಶ ಮೌಲ್ಯವಾಗಿ ಆಯ್ಕೆ ಮಾಡಲಾಗಿದೆ.

ಮಾನದಂಡದ ವಿಧಾನ:

ಪಟ್ಟಿಯ ಗುಂಪಿನ ವಿರುದ್ಧ ತಡೆಹಿಡಿಯುವಾಗ, ಉಲ್ಲೇಖಿತ ನಕಲುಗಳನ್ನು ಗುರುತಿಸುವ ಪ್ರಕ್ರಿಯೆಯ ಮಾನದಂಡವನ್ನು ಮಾಡಲಾಗಿದೆ. ಕೆಳಗಿನ ಕೋಷ್ಟಕವು ವಿಶಿಷ್ಟಗಳನ್ನು ಉಲ್ಲೇಖಿಸುತ್ತದೆ:

ದತ್ತಾಂಶಸಮೂಹ ಅಳತೆನಿಖರತೆ (ಸಮರ್ಪಕ ಗುರುತಿಸುವಿಕೆ)
ಪಟ್ಟಿಮಾಡಿದ ಪ್ರಶ್ನೆಗಳ ಜೋಡಿಯು ಹೊಂದಿರುವುದು: ಪಠ್ಯ ಮಾತ್ರ, ಪಠ್ಯ + ಚಿತ್ರ, ಚಿತ್ರ ಮಾತ್ರ
511483.1% (4250)
ಪಟ್ಟಿಮಾಡಿದ ಪ್ರಶ್ನೆಗಳ ಜೊತೆಯು ಹೊಂದಿರುವುದು: ಪಠ್ಯ + ಚಿತ್ರ, ಚಿತ್ರ ಮಾತ್ರ
271080.1% (2193)

ತೀರ್ಮಾನ ಮತ್ತು ಭವಿಷ್ಯದ ಸುಧಾರಣೆಗಳು: 

ಅನೇಕ ಯಂತ್ರ ಕಲಿಕೆ ಕಾರ್ಯಗಳಲ್ಲಿ 80% + ನಿಖರತೆಯು ಸಾಕಾಗುತ್ತದೆಯಾದರೂ, Embibe ಕಾರ್ಯನಿರ್ವಹಿಸುವ ಪ್ರಮಾಣವು ಹಸ್ತಚಾಲಿತ ಪರಿಶೀಲನೆಯನ್ನು ಮತ್ತಷ್ಟು ಕಡಿಮೆ ಮಾಡಲು ಹೆಚ್ಚು ನಿಖರವಾದ ಮಾದರಿಗಳ ಅಗತ್ಯವಿದೆ. ಶಬ್ದಾರ್ಥದ ಹೋಲಿಕೆ ಆಧಾರಿತ ಪಠ್ಯ ಗಣಿಗಾರಿಕೆಯಲ್ಲಿ ಪ್ರಸ್ತುತ ಅಭಿವೃದ್ಧಿಯೊಂದಿಗೆ, Embibe 90% + ನಿಖರತೆಯ ಗುರಿಯೊಂದಿಗೆ ದಟ್ಟವಾದ ವೆಕ್ಟರ್ (ಇಮೇಜ್ ಮತ್ತು ಟೆಕ್ಸ್ಟ್ ಎಂಬೆಡಿಂಗ್) ಆಧಾರಿತ ವಿಷಯ ಹೋಲಿಕೆ ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುತ್ತಿದೆ.

ಉಲ್ಲೇಖಗಳು

[1] Faldu, Keyur, Amit Sheth, Prashant Kikani, and Hemang Akabari. “KI-BERT: Infusing Knowledge Context for Better Language and Domain Understanding.” arXiv preprint arXiv:2104.08145 (2021).

[2] Gaur, Manas, Keyur Faldu, and Amit Sheth. “Semantics of the Black-Box: Can knowledge graphs help make deep learning systems more interpretable and explainable?.” IEEE Internet Computing 25, no. 1 (2021): 51-59.

[3] Gaur, Manas, Ankit Desai, Keyur Faldu, and Amit Sheth. “Explainable AI Using Knowledge Graphs.” In ACM CoDS-COMAD Conference. 2020.