ಜ್ಞಾನ ನಕ್ಷೆಯ ಜಾಲ ಘಟಕಗಳ ಸ್ವಯಂಚಾಲಿತ ಆವಿಷ್ಕಾರ
ಪರಿಚಯ:
Embibe ನಾಲೆಡ್ಜ್ ಗ್ರಾಫ್ ಎನ್ನುವುದು ಪಠ್ಯಕ್ರಮ-ಅಜ್ಞೇಯತಾವಾದಿ ಬಹು ಆಯಾಮದ ಗ್ರಾಫ್ ಆಗಿದ್ದು, 75,000+ ನೋಡ್ಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ, ಪ್ರತಿಯೊಂದೂ ಶೈಕ್ಷಣಿಕ ಜ್ಞಾನದ ಪ್ರತ್ಯೇಕ ಘಟಕವನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ, ಇದನ್ನು ಪರಿಕಲ್ಪನೆಗಳು ಎಂದೂ ಕರೆಯುತ್ತಾರೆ ಮತ್ತು ಪರಿಕಲ್ಪನೆಗಳು ಸ್ವತಂತ್ರವಾಗಿಲ್ಲ ಆದರೆ ಬದಲಾಗಿ ಅವುಗಳ ನಡುವೆ ಇರುವ ನೂರಾರು ಸಾವಿರ ಪರಸ್ಪರ ಸಂಪರ್ಕಗಳು ಇತರ ಪರಿಕಲ್ಪನೆಗಳಿಗೆ ಸಂಬಂಧಿಸಿದೆ.
Embibe ತನ್ನ ವಿಷಯವನ್ನು ವಿಸ್ತರಿಸಿದಂತೆ, ಜ್ಞಾನದ ನಕ್ಷೆ ಸಹ ನಿರಂತರವಾಗಿ ವಿಕಸನಗೊಳ್ಳುತ್ತಿದೆ. ಐತಿಹಾಸಿಕವಾಗಿ, ನಕ್ಷೆಯ ಭಾಗಗಳನ್ನು ಕ್ಯೂರೇಟ್ ಮಾಡಲು ಸ್ಮಾರ್ಟ್ ಆಟೊಮೇಷನ್ ಜೊತೆಗೆ ಪರಿಣಿತ ಅಧ್ಯಾಪಕರ ಹಸ್ತಚಾಲಿತ ಪ್ರಯತ್ನವನ್ನು ಬಳಸಿಕೊಂಡು ಇದನ್ನು ನಿರ್ಮಿಸಲಾಗಿದೆ. ಆದಾಗ್ಯೂ, Embibe ನಕ್ಷೆಯ ಹೊಸ ನೋಡ್ಗಳನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಅನ್ವೇಷಿಸುವ ಮತ್ತು ಶೈಕ್ಷಣಿಕ ಜ್ಞಾನದ ಸ್ಪೆಕ್ಟ್ರಮ್ನ ಹೆಚ್ಚಿನ ಭಾಗಗಳನ್ನು ಕವರ್ ಮಾಡಲು ನಕ್ಷೆಯನ್ನು ವಿಸ್ತರಿಸುವ ಗುರಿಯನ್ನು ಸಂಶೋಧನೆಯಲ್ಲಿ ಹೂಡಿಕೆ ಮಾಡುತ್ತಿದೆ; ಶೈಕ್ಷಣಿಕವಾಗಿ ಡಿಫರೆನ್ಷಿಯೇಟೆಡ್ ಫ್ರೇಸ್ ಎಕ್ಸ್ಟ್ರಾಕ್ಟರ್ ಲೇಬಲ್ ಮಾಡಲಾದ ಡೇಟಾ ಸೆಟ್ ಮತ್ತು BERT ಆಧಾರಿತ ಮಾದರಿಯನ್ನು ಬಳಸಿಕೊಂಡು ಜ್ಞಾನದ ಗ್ರಾಫ್ನಲ್ಲಿ ಹೊಸ ನೋಡ್ಗಳನ್ನು ಕಂಡುಹಿಡಿಯಲು ನಮಗೆ ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ ಮತ್ತು ಆ ಪದಗುಚ್ಛಗಳ ನುಡಿಗಟ್ಟುಗಳು ಮತ್ತು ಪ್ರಸ್ತುತತೆಯ ಮಟ್ಟವನ್ನು ನಮಗೆ ನೀಡುತ್ತದೆ.
ಶೈಕ್ಷಣಿಕವಾಗಿ ವಿಭಿನ್ನವಾದ ನುಡಿಗಟ್ಟು ಎಕ್ಸ್ಟ್ರಾಕ್ಟರ್:
ಅಕಾಡೆಮಿಕ್ ಡಿಫರೆನ್ಷಿಯೇಟೆಡ್ ಫ್ರೇಸ್ ಎಕ್ಸ್ಟ್ರಾಕ್ಟರ್ (ADPE), ಒಂದು ಶೈಕ್ಷಣಿಕ ಪುಸ್ತಕದಿಂದ ಪಠ್ಯದ ಪ್ರಮುಖ ವ್ಯಾಪ್ತಿಯ ಸ್ವಯಂಚಾಲಿತ ಅಂಡರ್ಲೈನ್ ಆಗಿದೆ, ಪುಸ್ತಕವನ್ನು ಓದುವಾಗ ವಿದ್ಯಾರ್ಥಿಯು ಹೇಗೆ ಪ್ರಮುಖ ಪರಿಕಲ್ಪನೆಗಳನ್ನು ಒತ್ತಿಹೇಳುತ್ತಾನೆ. ಇದರ ಪ್ರಾಥಮಿಕ ಗುರಿಯು ರಚನೆಯಿಲ್ಲದ ಪಠ್ಯದಿಂದ ಪರಿಕಲ್ಪನೆಗಳನ್ನು ಹೊರತೆಗೆಯುವುದು, ಹೆಚ್ಚಿನ ಪರಿಕಲ್ಪನೆಗಳನ್ನು ಪುಸ್ತಕ ಪಠ್ಯದ ಉಪವಿಭಾಗಗಳಾಗಿ ಗುರುತಿಸಬಹುದು ಎಂಬ ಊಹೆಯಿಂದ ನಡೆಸಲ್ಪಡುತ್ತದೆ.
ಕೀ-ಫ್ರೇಸ್ ಹೊರತೆಗೆಯುವಿಕೆ ಮತ್ತು ಹೆಸರಿಸಲಾದ ಘಟಕದ ಗುರುತಿಸುವಿಕೆಯಲ್ಲಿ ವ್ಯಾಪಕವಾದ ಕೆಲಸವಿದೆ. ಆದಾಗ್ಯೂ, ಶೈಕ್ಷಣಿಕ ಪುಸ್ತಕದಿಂದ ಪರಿಕಲ್ಪನೆಗಳ ಸ್ವಯಂಚಾಲಿತ ಹೊರತೆಗೆಯುವಿಕೆ ಸೀಮಿತ ವ್ಯಾಪ್ತಿಯನ್ನು ಕಂಡ ಸವಾಲಿನ ಕೆಲಸವಾಗಿದೆ. ವ್ಯಾಖ್ಯಾನದ ಮೂಲಕ ಪರಿಕಲ್ಪನೆಯ ಹೊರತೆಗೆಯುವಿಕೆ, ಪ್ರಕೃತಿಯಲ್ಲಿ ಸಮಗ್ರವಾಗಿದೆ, ಅಂದರೆ ಎಲ್ಲಾ ಪರಿಕಲ್ಪನೆಗಳನ್ನು ಹೊರತೆಗೆಯಬೇಕಾಗಿದೆ, ಇದು ಅಧ್ಯಾಯದ ಪರಿಕಲ್ಪನೆಯ ಶ್ರೇಣಿಯ ಭಾಗವಾಗಿದೆ, ಅಧ್ಯಾಯದ ಸಂದರ್ಭದಲ್ಲಿ ಅವುಗಳ ಸಹ-ಸಂಭವ ಮತ್ತು ಪ್ರಸ್ತುತತೆಯನ್ನು ವಿವರಿಸುತ್ತದೆ. ಇದು ಕೀ-ಫ್ರೇಸ್ ಹೊರತೆಗೆಯುವಿಕೆಯಿಂದ ಭಿನ್ನವಾಗಿದೆ ಏಕೆಂದರೆ ಎರಡನೆಯದು ಲೇಖನವನ್ನು ವಿವರಿಸುವ ಟಾಪ್-ಎನ್ ಕೀವರ್ಡ್ಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತದೆ, ಪ್ರಸ್ತುತತೆಯ ಯಾವುದೇ ಅರ್ಥಪೂರ್ಣ ಕ್ರಮಾನುಗತದಲ್ಲಿ ಅಗತ್ಯವಿಲ್ಲ. ಇದಲ್ಲದೆ, ಇದು ಹೆಸರಿಸಲಾದ ಘಟಕದ ಹೊರತೆಗೆಯುವಿಕೆಯಿಂದ ಭಿನ್ನವಾಗಿದೆ ಏಕೆಂದರೆ ನಂತರದ ಕಾರ್ಯವು ಪೂರ್ವ-ನಿರ್ದಿಷ್ಟ ವರ್ಗಗಳಿಗೆ ಸೇರಿದ ಘಟಕಗಳ ಪ್ರತ್ಯೇಕ ನಿದರ್ಶನಗಳನ್ನು (ಉದಾ: ಸ್ಥಳ, ವ್ಯಕ್ತಿ, ORG) ಸಾಮಾನ್ಯವಾಗಿ ಚಿಕ್ಕ ಪಠ್ಯಗಳಿಂದ ಹೊರತೆಗೆಯುವುದರ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತದೆ. ಅನನ್ಯ, ಸಂಬಂಧಿತ ಪರಿಕಲ್ಪನೆಗಳನ್ನು ಹೊರತೆಗೆಯಲು ನಮ್ಮ ಗುರಿ. ಶಾಸ್ತ್ರೀಯ ಯಂತ್ರ ಕಲಿಕೆ ಮತ್ತು ಆಳವಾದ ಕಲಿಕೆ-ಆಧಾರಿತ ಮೇಲ್ವಿಚಾರಣೆ/ಮೇಲ್ವಿಚಾರಣೆಯಿಲ್ಲದ ತಂತ್ರಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಇಂತಹ ಟಾಸ್ಕ್ ಫಾರ್ಮುಲೇಶನ್ಗಳಿಂದ ಪ್ರೇರೇಪಿಸಲ್ಪಟ್ಟ ಆಂಟಾಲಜಿ-ಆಧಾರಿತ ಪರಿಕಲ್ಪನೆಯ ಹೊರತೆಗೆಯುವಿಕೆಗೆ ನಾವು ವಿಧಾನಗಳನ್ನು ಪ್ರಸ್ತುತಪಡಿಸುತ್ತೇವೆ.
ಸಂಶೋಧನಾ ವಿಧಾನಗಳು:
ಎರಡು ಪ್ರಾಥಮಿಕಗಳಲ್ಲಿ BERT (ಟ್ರಾನ್ಸ್ಫಾರ್ಮರ್ಗಳಿಂದ ದ್ವಿಮುಖ ಎನ್ಕೋಡರ್ ಪ್ರಾತಿನಿಧ್ಯಗಳು), LSTM (ದೀರ್ಘ ಅಲ್ಪಾವಧಿಯ ಸ್ಮರಣೆ), CNN ಗಳ (ಕನ್ವಲ್ಯೂಷನಲ್ ನ್ಯೂರಲ್ ನೆಟ್ವರ್ಕ್) ನಂತಹ ADPE ಡೇಟಾಸೆಟ್ನಲ್ಲಿ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಸುಧಾರಿಸಲು ನಮ್ಮ ಪ್ರಯೋಗಗಳು ಅತ್ಯಾಧುನಿಕ ಆಳವಾದ ಕಲಿಕೆಯ ತಂತ್ರಗಳನ್ನು ಬಳಸಿಕೊಳ್ಳುತ್ತವೆ. ವರ್ಗೀಕರಣ ಸೂತ್ರೀಕರಣಗಳು. ಮೊದಲನೆಯದು ಹೆಸರಿಸಲಾದ ಎಂಟಿಟಿ ರೆಕಗ್ನಿಷನ್ಗಾಗಿ ಅನುಕ್ರಮ ಟ್ಯಾಗಿಂಗ್ ಮತ್ತು ಎರಡನೆಯದು ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯ, ಲಾಕ್ಷಣಿಕ, ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣೆ, ಪಠ್ಯ ವೈಶಿಷ್ಟ್ಯಗಳೊಂದಿಗೆ ಅಭ್ಯರ್ಥಿ n-ಗ್ರಾಂಗಳನ್ನು ಉತ್ಪಾದಿಸಲು ಮತ್ತು ಡೀಪ್ ನ್ಯೂರಲ್ ನೆಟ್ವರ್ಕ್ ಬಳಸಿ ಅವುಗಳನ್ನು ವರ್ಗೀಕರಿಸಲು n-ಗ್ರಾಂ ವರ್ಗೀಕರಣವಾಗಿದೆ.
ನಾವು ವರ್ಧಿತ ಶಬ್ದಕೋಶದೊಂದಿಗೆ BERT ಅನ್ಕೇಸ್ಡ್ ಮಾಡೆಲ್ ಅನ್ನು ನಿಯಂತ್ರಿಸುತ್ತೇವೆ ಮತ್ತು ವೈಜ್ಞಾನಿಕ ಜರ್ನಲ್ಗಳು ಮತ್ತು ಪುಸ್ತಕ ಅಧ್ಯಾಯಗಳಲ್ಲಿ ಉತ್ತಮವಾಗಿ ಟ್ಯೂನ್ ಮಾಡಿದ್ದೇವೆ. ಇದಲ್ಲದೆ, ಎಲ್ಲಾ ಎನ್ಕೋಡರ್ ಲೇಯರ್ಗಳ ಪ್ರಾತಿನಿಧ್ಯಗಳನ್ನು ಇನ್ಪುಟ್ ಪಠ್ಯದಿಂದ ಪರಿಕಲ್ಪನೆಗಳನ್ನು ಕಂಡುಹಿಡಿಯಲು ನಿರ್ಬಂಧಿತ-ಪರಿವರ್ತನೆ (BIO ಎನ್ಕೋಡಿಂಗ್) CRF (ಷರತ್ತುಬದ್ಧ ಯಾದೃಚ್ಛಿಕ ಕ್ಷೇತ್ರ) ಅನುಕ್ರಮ ಟ್ಯಾಗರ್ಗೆ ನೀಡಲಾಗುತ್ತದೆ.
CRF ಏತಕ್ಕಾಗಿ (ಷರತ್ತುಬದ್ಧ ಯಾದೃಚ್ಛಿಕ ಕ್ಷೇತ್ರ):
- CRF ಅನುಕ್ರಮದ ಲಾಗ್ ಸಾಧ್ಯತೆಯನ್ನು ಗರಿಷ್ಠಗೊಳಿಸುತ್ತದೆ ಮತ್ತು ಅನುಕ್ರಮ ಟ್ಯಾಗ್ಗಳ ಗರಿಷ್ಠ ಲೈಕ್ಲಿಹುಡ್ ಅಂದಾಜನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ.
- CRF ನಿರ್ಬಂಧಗಳು ಕೇವಲ ಮಾನ್ಯ ಮಲ್ಟಿಗ್ರಾಮ್ ಸೀಕ್ವೆನ್ಸ್ ಲೇಬಲ್ಗಳನ್ನು ಲೇಬಲ್ ಎನ್ಕೋಡಿಂಗ್ ಮೂಲಕ ರಚಿಸಲಾಗಿದೆ ಎಂದು ಖಚಿತಪಡಿಸುತ್ತದೆ – (ಉದಾ: BIO ಎನ್ಕೋಡಿಂಗ್ ಒಂದು ಅನುಕ್ರಮದಲ್ಲಿ ಘಟಕದ ವಿಭಜನೆಯನ್ನು ಖಾತರಿಪಡಿಸುತ್ತದೆ ಆದರೆ ಕೆಲವು ವ್ಯಾಕರಣ ನಿಯಮಗಳನ್ನು ಪೂರೈಸಬೇಕು)
- CRF ಅನುಕ್ರಮ ಲಾಗ್ ಸಂಭವನೀಯತೆಯನ್ನು ನಷ್ಟವಾಗಿ ಬಳಸಲಾಗುತ್ತದೆ, ಇದು ಸಾಮಾನ್ಯ ರೇಖೀಯ ಪದರಕ್ಕಿಂತ ನೆಟ್ವರ್ಕ್ನ ಔಟ್ಪುಟ್ ಲಾಗ್ಗಳನ್ನು ಉತ್ತಮಗೊಳಿಸುತ್ತದೆ (ಫ್ರೀಜ್ ಮಾಡದಿದ್ದರೆ) ಸಾಮಾನ್ಯ ರೇಖೀಯ ಪದರದ ಔಟ್ಪುಟ್ ಅನ್ನು CRF ಫೈನ್ ಟ್ಯೂನ್ಡ್ ಲೀನಿಯರ್ ಲೇಯರ್ನೊಂದಿಗೆ ಹೋಲಿಸುವ ಮೂಲಕ ದೃಢೀಕರಿಸಬಹುದು.
ಸಾರಾಂಶ:
ಎಂಬಿಬ್ನ ಎಲ್ಲಾ ಉತ್ಪನ್ನಗಳಿಗೆ ಜ್ಞಾನದ ಗ್ರಾಫ್ ಬೆನ್ನೆಲುಬಾಗಿದೆ. ಆದ್ದರಿಂದ ಜ್ಞಾನದ ಗ್ರಾಫ್ ಪೂರ್ಣಗೊಳಿಸುವಿಕೆ ನಮ್ಮ ಪ್ರಾಥಮಿಕ ಕಾರ್ಯವಾಗಿದೆ. ಈ ಕೆಲಸವು ಜ್ಞಾನದ ಗ್ರಾಫ್ ಅನ್ನು ನಿರ್ವಹಿಸಲು ನಮಗೆ ಸಹಾಯ ಮಾಡಿತು ಮತ್ತು ಅತ್ಯಂತ ಕಡಿಮೆ ಕೈಯಿಂದ ಮಾಡಿದ ಮಧ್ಯಸ್ಥಿಕೆಗಳೊಂದಿಗೆ ಅದನ್ನು ತ್ವರಿತವಾಗಿ ವಿಸ್ತರಿಸಿತು.
ಈ ವ್ಯಾಯಾಮದ ಮಾದರಿಯಲ್ಲಿ BERT ಬಳಸಿ ತರಬೇತಿ ನೀಡಲಾಗುತ್ತದೆ ಮತ್ತು ಡೇಟಾ ಸಂಸ್ಕರಣೆ, ಮಾಡೆಲಿಂಗ್ ಮತ್ತು ಮೌಲ್ಯೀಕರಣಕ್ಕಾಗಿ ಇತರ ತಂತ್ರಗಳನ್ನು ಬಳಸಲಾಗುತ್ತದೆ. ಶೈಕ್ಷಣಿಕವಾಗಿ ವಿಭಿನ್ನವಾದ ಫ್ರೇಸ್ ಎಕ್ಸ್ಟ್ರಾಕ್ಟರ್ ಅನ್ನು ಕಚ್ಚಾ ಶೈಕ್ಷಣಿಕ ಪಠ್ಯದಿಂದ ಪ್ರಮುಖ ಶೈಕ್ಷಣಿಕ ಪದಗಳನ್ನು ಅಂಡರ್ಲೈನ್ ಮಾಡಲು ಬಳಸಲಾಗುತ್ತಿದೆ ಮತ್ತು ಹೀಗಾಗಿ, ನಾವು ವಿಭಿನ್ನ ಮೂಲಗಳಿಂದ ನಿರ್ದಿಷ್ಟ ಪಠ್ಯದ ಡೇಟಾದಿಂದ ಪರಿಕಲ್ಪನೆಯನ್ನು ಕಂಡುಹಿಡಿಯುವ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಸ್ವಯಂಚಾಲಿತಗೊಳಿಸಿದ್ದೇವೆ.
ಉಲ್ಲೇಖ:
[1] Devlin Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 (2018).
[2] Zhiheng Huang, Wei Xu, Kai Yu. Bidirectional LSTM-CRF Models for Sequence Tagging. arXiv preprint arXiv:1508.01991 (2015)
[3] William Cavnar and John Trenkle. N-Gram-Based Text Categorization. In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (Las Vegas, US, 1994), pp. 161–175.
[4] Gaur, Manas, Keyur Faldu, and Amit Sheth. “Semantics of the Black-Box: Can knowledge graphs help make deep learning systems more interpretable and explainable?.” IEEE Internet Computing 25, no. 1 (2021): 51-59.