నాలెడ్జ్ గ్రాఫ్ నోడ్‌ల ఆటోమేటెడ్ డిస్కవరీ

నాలెడ్జ్ గ్రాఫ్ నోడ్‌ల ఆటోమేటెడ్ డిస్కవరీ

Embibe యొక్క నాలెడ్జ్ గ్రాఫ్ అనేది ఒక  కరిక్యులమ్ యాగ్నాస్టిక్  ముల్టి డైమెన్షనల్ గ్రాఫ్. ఇందులో  75,000+ నోడ్‌ల  కంటే ఎక్కువ అకడమిక్ కు సంబంధించిన వివిధ యూనిట్‌లు ఉంటాయి. వీటినే కాన్సెప్ట్స్ అంటాం. ఇవి వందల వేల సంఖ్యలో ఉన్నా కాన్సెప్టులు ఒకదానితో మరొకటి సంబంధం కలిగి ఉంటాయి.

నిపుణులైన అధ్యాపకులతో మాన్యూవల్ గా స్మార్ట్ ఆటోమేషన్ కలిగి గ్రాఫ్ సహాయంతో క్యూరేట్ చేయడానికి ఇది నిర్మించబడింది. Embibe లోని కంటెంట్ బట్టి  నాలెడ్జ్ గ్రాఫ్ అనేది  పెరుగుతుంది. అకడమిక్ నాలెడ్జ్ స్పెక్ట్రమ్‌లోని ఎక్కువ అంశాలను కవర్ చేయడానికి మరియు గ్రాఫ్ యొక్క కొత్త నోడ్‌లను స్వయంచాలకంగా కనుగొనడానికి   Embibe  ఈ అంశాలను లక్ష్యంగా తీసుకొని పరిశోధన  చేస్తుంది. లేబుల్ చేయబడిన డేటా సెట్ మరియు BERT ఆధారిత మోడల్‌ని ఉపయోగించడం ద్వారా నాలెడ్జ్ గ్రాఫ్‌లో కొత్త నోడ్‌లను కనుగొనడానికి మరియు ఫ్రేసేస్ మరియు రిలవెన్స్ మనకు అందించడానికి డిఫరెన్సియేటెడ్ ఫ్రేస్ ఎక్స్‌ట్రాక్టర్ సహాయపడుతుంది.

అకడమిడికల్లి డిఫరెన్షిఏటెడ్ ఫ్రేస్ ఎక్సట్రాక్టర్

ఒక విద్యార్థి  టెక్ట్స్‌బుక్‌లో ముఖ్యమైన అంశాలను అండర్లైన్ చేసినట్టుగా ఇది చేస్తుంది. అకడమిక్ కు సంబంధి టెక్ట్స్ బుక్ ఉన్న ముఖ్య అంశాలను అండర్లైన్ చేయడానికి అకడమికల్లి  డిఫరెన్సియేటెడ్ ఫ్రేస్ ఎక్స్‌ట్రాక్టర్ (ADPE), సహాయపడుతుంది. నిర్దేశించబడని టెస్ట్స్ బుక్  నుండి కాన్సెప్ట్స్ లను సంగ్రహించడం మరియు పాఠ్యం యొక్క ఉపభాగాల నుండి  కాన్సెప్ట్స్ ను గుర్తించడం దీని ప్రాథమిక లక్ష్యం గా ఉంటుంది 

కాన్సెప్ట్ అకడమిక్ పుస్తకం నుండి కాన్సెప్ట్ లను స్వయంగా సంగ్రహించడం అనేది అంత సులభతరం కాదు.  కీ-ఫ్రేజ్ ఎక్స్‌ట్రాక్షన్ మరియు పేరున్న ఎంటిటీ గుర్తించడంలో విస్తృతంగా  పని చేస్తుంది. నిర్వచనం ప్రకారం కాన్సెప్ట్ ను విశృతంగా సంగ్రహిస్తుంది. చాప్టర్ కు సంబంధించిన అన్ని కాన్సెప్ట్స్ లను చాప్టర్ సంబంధించిన క్రమంలో వాటి అంశాలను  సంగ్రహించబడుతుంది. ఇది కీ-ఫ్రేజ్ ఎక్స్‌ట్రాక్షన్ నుండి భిన్నంగా ఉంటుంది,  అర్థవంతమైన సంబంధం లేని   ఆర్టికల్ ను డిస్క్రైబ్ చేస్తుంది  z లెటర్ టాప్-n కీ వర్డ్స్ ను  ఫోకస్ చేస్తుంది. ఇది ఎన్టీటి సంగ్రహణం కన్నా భిన్నంగా ఉంటుంది. కానీ దీని నెక్ట్స్ టాస్క్ అనేది ఇండివిసువల్ యొక్క ప్రత్యేక ఎన్టీటి లను సంగ్రహిస్తుంది. (ఉదా:LOCATION,PERSON, ORG) సాధారణంగా వాక్యాలు షార్ట్ టెక్ట్స్ లు అర్థవంతమైనవి  కాకపోయినా  ప్రత్యేకమైన సంబంధించిన కాన్సెప్ట్స్ ను సంగ్రహిస్తుంది. క్లాసికల్ మెషీన్ లెర్నింగ్ మరియు డీప్ లెర్నింగ్-బేస్డ్ సూపర్‌వైజ్డ్/పర్యవేక్షించని టెక్నిక్‌లను ఉపయోగించి మేము అంటాలజీ ఆధారిత కాన్సెప్ట్స్ లను సంగ్రహించి టాస్క్ ఫామ్లేషన్ ను ప్రోత్సహిస్తాం.  

పరిశోధన విధానాలు 

మా ప్రయోగాలు ADPE డేటాసెట్‌లో  BERT (బిడైరక్షనల్ ఎన్కోడర్ రెప్రెసెంటటేషన్స్ ఫ్రమ్ ట్రాన్స్ఫార్మర్స్), LSTM (లాంగ్ షార్ట్-టర్మ్ మెమరీ), CNNలు (కన్వల్యూషనల్ న్యూరల్ నెట్‌వర్క్) లాంటి పనితీరును మెరుగుపరచడానికి అత్యాధునిక అభ్యాస పద్ధతులను ప్రభావితం చేస్తాయి.  వీటిని  రెండు ప్రాథమిక వర్గీకరణ సూత్రాలుగా విభజిస్తారు. ఎన్టీటి నేమ్ ను గుర్తించడానికి  మొదటిది ట్యాగ్ చేయబడింది. రెండవది n-గ్రామ్ వర్గీకరణ లో   స్టాటిస్టికల్, సెమాంటిక్, నేచురల్ లాంగ్వేజ్ ప్రాసెసింగ్, టెక్స్ట్ ఫీచర్‌లతో రూపొంధించబడిన అభ్యర్థి n-గ్రాముల తయారుచేయడానికి డీప్ న్యూరల్ నెట్‌వర్క్‌ని ఉపయోగిస్తారు.

సైంటిఫిక్ జర్నల్స్ మరియు బుక్స్ చాప్టర్స్ ల సంగ్రహించి  మరియు  మంచి పదజాలం తో మేము BERT అన్‌కేస్డ్ మోడల్‌ను పొందుపరచాము. ఇన్పుట్ టెక్ట్స్ నుంచి కాన్సెప్ట్ తెలుసుకొనడానికి అన్ని ఎన్కోడర్ లేయర్స్ కన్స్ట్రెయినెడ్ ట్రాన్సేషన్స్ ల ప్రాతినిత్యం వహిస్తుంది (BIO ఎన్కోడింగ్) CRF(కండిషనల్ రాండమ్ ఫీల్డ్) సీక్వెన్షియల్ ట్యాగర్‌ లోకి అందించబడతాయి.

CRF (కండిషనల్ రాండమ్ ఫీల్డ్) ఎందుకు:

  • CRF సీక్వెన్స్ యొక్క లాగ్ సంభావ్యతను పెంచుతుంది మరియు సీక్వెన్స్ ట్యాగ్‌ల గరిష్ట సంభావ్యత అంచనాను వేయడానికి సహాయపడుతుంది 
  • CRF మల్టీ లేబల్స్ ను లేబల్ ఎన్కోడ్ ద్వారా రూపొందిచబడతాయి. (eg:BIO ఎన్కోడింగ్ ఎన్‌కోడింగ్ ఒక క్రమంలో ఉన్న  ఎంటిటీ సెగ్మెంటేషన్‌కు గ్యారంటీ  ఇస్తుంది కానీ కొన్ని వ్యాకరణ నియమాలను కలిగి ఉంటుంది, వీటిని తప్పనిసరిగా నెరవేర్చవలసి ఉంటుంది 
  • CRF సీక్వెన్షియల్ లాగ్ సంభావ్యత నష్టంగా ఉపయోగించబడుతుంది, ఇది సాధారణ లీనియర్ లేయర్ కంటే నెట్‌వర్క్ యొక్క అవుట్‌పుట్ లాజిట్‌లను మెరుగ్గా ఆప్టిమైజ్ చేస్తుంది, ఇది సాధారణ లీనియర్ లేయర్ యొక్క అవుట్‌పుట్‌ను CRF ఫైన్ ట్యూన్డ్ లీనియర్ లేయర్‌తో పోల్చడం ద్వారా నిర్ధారించబడుతుంది

సారాంశం:

Embibe లోని అన్ని ప్రోడక్ట్స్ కు నాలెడ్జ్ గ్రాఫ్ అనేది వెన్నెముక లాంటిది. మా ప్రధాన టాస్క్ నాలెడ్జ్ గ్రాఫ్ ను పూర్తి చేయడం. ఇది నాలెడ్జ్ గ్రాఫ్ ను మైన్టైన్ చేయడానికి మరియు మాన్యూవల్ ఇనవర్షన్స్ ను త్వరగా విస్తరించడానికి మనకు సహాయపడుతుంది.

డేటా ప్రాసెసింగ్, మోడలింగ్ మరియు  వ్యాలిడేషన్ కోసం ఇతర పద్ధతులను BERT ని ఉపయోగించడంలో ఈ ఎక్సర్సైస్ మోడెల్ శిక్షణ పొందింది. అకడమిక్ టెక్ట్స్ నుంచి అకడమిక్ కు సంబంధించిన పదాలను  అండర్లైన్ చేయడానికి అకడమిక్ డిఫరెన్సియేటెడ్ ఫ్రేస్ ఎక్స్‌ట్రాక్టర్ ఉపయోగపడుతుంది. ఇతర సోర్స్ ల టెక్ట్స్వల్ డేటా నుంచి  కాన్సెప్ట్స్ ను తెలుసుకోవడానికి ఈ ప్రక్రియను మేము ఆటోమేటెడ్ చేస్తాం.

References:

[1] Devlin Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 (2018).

[2] Zhiheng Huang, Wei Xu, Kai Yu. Bidirectional LSTM-CRF Models for Sequence Tagging. arXiv preprint arXiv:1508.01991 (2015)

[3] William Cavnar and John Trenkle. N-Gram-Based Text Categorization. In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (Las Vegas, US, 1994), pp. 161–175.

[4] Gaur, Manas, Keyur Faldu, and Amit Sheth. “Semantics of the Black-Box: Can knowledge graphs help make deep learning systems more interpretable and explainable?.” IEEE Internet Computing 25, no. 1 (2021): 51-59.