ਜਾਣ-ਪਛਾਣ:
Embibe ਦਾ ਨੌਲੇਜ ਗ੍ਰਾਫ਼ ਇੱਕ ਪਾਠਕ੍ਰਮ-ਅਗਿਆਨੀ ਬਹੁ-ਆਯਾਮੀ ਗ੍ਰਾਫ਼ ਹੈ ਜਿਸ ਵਿੱਚ 75,000+ ਤੋਂ ਵੱਧ ਨੋਡਸ ਸ਼ਾਮਲ ਹਨ, ਹਰ ਇੱਕ ਅਕਾਦਮਿਕ ਨੌਲੇਜ ਦੀ ਇੱਕ ਵੱਖਰੀ ਇਕਾਈ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਜਿਸਨੂੰ ਸੰਕਲਪ ਵੀ ਕਿਹਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਉਹਨਾਂ ਵਿਚਕਾਰ ਸੈਂਕੜੇ ਹਜ਼ਾਰਾਂ ਅੰਤਰ-ਸੰਬੰਧਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਕਿਵੇਂ ਸੰਕਲਪ ਸੁਤੰਤਰ ਨਹੀਂ ਹਨ, ਸਗੋਂ ਹਨ। ਹੋਰ ਧਾਰਨਾਵਾਂ ਨਾਲ ਸਬੰਧਤ.
ਜਿਵੇਂ ਕਿ ਐਮਬੀਬੇ ਆਪਣੀ ਸਮੱਗਰੀ ਦਾ ਵਿਸਤਾਰ ਕਰਦਾ ਹੈ, ਨੌਲੇਜ ਗ੍ਰਾਫ ਵੀ ਲਗਾਤਾਰ ਵਿਕਸਿਤ ਹੋ ਰਿਹਾ ਹੈ। ਇਤਿਹਾਸਕ ਤੌਰ ‘ਤੇ, ਇਹ ਗ੍ਰਾਫ ਦੇ ਹਿੱਸਿਆਂ ਨੂੰ ਠੀਕ ਕਰਨ ਲਈ ਸਮਾਰਟ ਆਟੋਮੇਸ਼ਨ ਦੇ ਨਾਲ ਮਾਹਰ ਫੈਕਲਟੀ ਦੇ ਹੱਥੀਂ ਯਤਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਬਣਾਇਆ ਗਿਆ ਹੈ। ਹਾਲਾਂਕਿ, Embibe ਖੋਜ ਵਿੱਚ ਨਿਵੇਸ਼ ਕਰ ਰਿਹਾ ਹੈ ਜਿਸਦਾ ਉਦੇਸ਼ ਗ੍ਰਾਫ ਦੇ ਨਵੇਂ ਨੋਡਾਂ ਨੂੰ ਆਪਣੇ ਆਪ ਖੋਜਣਾ ਅਤੇ ਅਕਾਦਮਿਕ ਨੌਲੇਜ ਸਪੈਕਟ੍ਰਮ ਦੇ ਹੋਰ ਹਿੱਸਿਆਂ ਨੂੰ ਕਵਰ ਕਰਨ ਲਈ ਗ੍ਰਾਫ ਨੂੰ ਵਧਾਉਣਾ ਹੈ। ਅਕਾਦਮਿਕ ਤੌਰ ‘ਤੇ ਵਿਭਿੰਨ ਵਾਕਾਂਸ਼ ਐਕਸਟਰੈਕਟਰ ਸਾਨੂੰ ਇੱਕ ਲੇਬਲ ਕੀਤੇ ਡੇਟਾ ਸੈੱਟ ਅਤੇ BERT ਅਧਾਰਤ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇੱਕ ਨੌਲੇਜ ਗ੍ਰਾਫ ਵਿੱਚ ਨਵੇਂ ਨੋਡ ਖੋਜਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ ਅਤੇ ਸਾਨੂੰ ਉਹਨਾਂ ਵਾਕਾਂਸ਼ਾਂ ਦੇ ਵਾਕਾਂਸ਼ ਅਤੇ ਪ੍ਰਸੰਗਿਕਤਾ ਦੇ ਪੱਧਰ ਦਿੰਦਾ ਹੈ।
ਅਕਾਦਮਿਕ ਤੌਰ ‘ਤੇ ਵਿਭਿੰਨ ਵਾਕਾਂਸ਼ ਐਕਸਟਰੈਕਟਰ:
ਅਕਾਦਮਿਕ ਤੌਰ ‘ਤੇ ਵਿਭਿੰਨ ਵਾਕਾਂਸ਼ ਐਕਸਟਰੈਕਟਰ (ADPE), ਇੱਕ ਅਕਾਦਮਿਕ ਕਿਤਾਬ ਤੋਂ ਟੈਕਸਟ ਦੇ ਮਹੱਤਵਪੂਰਨ ਸਪੈਨਸ ਦੀ ਇੱਕ ਸਵੈਚਲਿਤ ਰੇਖਾਂਕਣ ਹੈ, ਜਿਸ ਨਾਲ ਇੱਕ ਵਿਦਿਆਰਥੀ ਕਿਤਾਬ ਨੂੰ ਪੜ੍ਹਦੇ ਸਮੇਂ ਮਹੱਤਵਪੂਰਨ ਧਾਰਨਾਵਾਂ ਨੂੰ ਕਿਵੇਂ ਰੇਖਾਂਕਿਤ ਕਰਦਾ ਹੈ। ਇਸਦਾ ਮੁਢਲਾ ਉਦੇਸ਼ ਗੈਰ-ਸੰਗਠਿਤ ਪਾਠ ਤੋਂ ਸੰਕਲਪਾਂ ਨੂੰ ਕੱਢਣਾ ਹੈ, ਜੋ ਕਿ ਇਸ ਧਾਰਨਾ ਦੁਆਰਾ ਸੰਚਾਲਿਤ ਹੈ ਕਿ ਜ਼ਿਆਦਾਤਰ ਸੰਕਲਪਾਂ ਨੂੰ ਕਿਤਾਬ ਦੇ ਪਾਠ ਦੇ ਉਪ-ਸਪੰਨ ਵਜੋਂ ਪਛਾਣਿਆ ਜਾ ਸਕਦਾ ਹੈ।
ਕੁੰਜੀ-ਵਾਕਾਂਸ਼ ਕੱਢਣ ਅਤੇ ਨਾਮੀ ਹਸਤੀ ਮਾਨਤਾ ‘ਤੇ ਵਿਆਪਕ ਕੰਮ ਹੈ। ਹਾਲਾਂਕਿ, ਇੱਕ ਅਕਾਦਮਿਕ ਕਿਤਾਬ ਤੋਂ ਸੰਕਲਪਾਂ ਦਾ ਆਟੋਮੈਟਿਕ ਐਕਸਟਰੈਕਟ ਕਰਨਾ ਇੱਕ ਚੁਣੌਤੀਪੂਰਨ ਕੰਮ ਹੈ ਜਿਸਨੇ ਸੀਮਤ ਕਵਰੇਜ ਦੇਖੀ ਹੈ। ਪਰਿਭਾਸ਼ਾ ਦੁਆਰਾ ਸੰਕਲਪ ਕੱਢਣਾ, ਕੁਦਰਤ ਵਿੱਚ ਸੰਪੂਰਨ ਹੈ, ਭਾਵ ਸਾਰੀਆਂ ਧਾਰਨਾਵਾਂ ਨੂੰ ਐਕਸਟਰੈਕਟ ਕਰਨ ਦੀ ਲੋੜ ਹੈ, ਜੋ ਅਧਿਆਇ ਦੇ ਸੰਕਲਪ ਲੜੀ ਦਾ ਹਿੱਸਾ ਹਨ, ਅਧਿਆਇ ਦੇ ਸੰਦਰਭ ਵਿੱਚ ਉਹਨਾਂ ਦੀ ਸਹਿ-ਮੌਜੂਦਗੀ ਅਤੇ ਪ੍ਰਸੰਗਿਕਤਾ ਦਾ ਵਰਣਨ ਕਰਦੇ ਹੋਏ। ਇਹ ਕੁੰਜੀ-ਵਾਕਾਂਸ਼ ਕੱਢਣ ਤੋਂ ਵੱਖਰਾ ਹੈ ਕਿਉਂਕਿ ਬਾਅਦ ਵਾਲਾ ਲੇਖ ਦਾ ਵਰਣਨ ਕਰਨ ਵਾਲੇ ਸਿਖਰ-ਐਨ ਕੀਵਰਡਸ ‘ਤੇ ਕੇਂਦ੍ਰਤ ਕਰਦਾ ਹੈ, ਇਹ ਜ਼ਰੂਰੀ ਨਹੀਂ ਕਿ ਸਾਰਥਕਤਾ ਦੇ ਕਿਸੇ ਵੀ ਅਰਥਪੂਰਨ ਲੜੀ ਵਿੱਚ ਹੋਵੇ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਹ ਨਾਮਿਤ ਇਕਾਈ ਐਕਸਟਰੈਕਸ਼ਨ ਤੋਂ ਵੀ ਵੱਖਰਾ ਹੈ ਕਿਉਂਕਿ ਬਾਅਦ ਵਾਲਾ ਕੰਮ ਪੂਰਵ-ਨਿਰਧਾਰਤ ਸ਼੍ਰੇਣੀਆਂ (ਉਦਾਹਰਨ ਲਈ: LOCATION, PERSON, ORG) ਨਾਲ ਸਬੰਧਤ ਇਕਾਈਆਂ ਦੇ ਵਿਅਕਤੀਗਤ ਉਦਾਹਰਨਾਂ ਨੂੰ ਕੱਢਣ ‘ਤੇ ਕੇਂਦ੍ਰਤ ਕਰਦਾ ਹੈ ਜਿਵੇਂ ਕਿ ਵਾਕਾਂ ਦੇ ਉਲਟ ਇੱਕ ਅਰਥਗਤ ਲੜੀ ਦਾ ਗਠਨ ਕਰਨਾ ਜ਼ਰੂਰੀ ਨਹੀਂ ਹੈ। ਸਾਡਾ ਟੀਚਾ ਵਿਲੱਖਣ, ਸੰਬੰਧਿਤ ਸੰਕਲਪਾਂ ਨੂੰ ਐਕਸਟਰੈਕਟ ਕਰਨਾ ਹੈ। ਅਸੀਂ ਕਲਾਸੀਕਲ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਅਤੇ ਡੂੰਘੀ ਸਿਖਲਾਈ-ਅਧਾਰਿਤ ਨਿਰੀਖਣ/ਅਨਸੂਪਰਵਾਈਜ਼ਡ ਤਕਨੀਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਅਜਿਹੇ ਕਾਰਜ ਫਾਰਮੂਲੇ ਦੁਆਰਾ ਪ੍ਰੇਰਿਤ ਓਨਟੋਲੋਜੀ-ਅਧਾਰਤ ਸੰਕਲਪ ਕੱਢਣ ਲਈ ਪਹੁੰਚ ਪੇਸ਼ ਕਰਦੇ ਹਾਂ।
ਖੋਜ ਦੇ ਤਰੀਕੇ:
ਸਾਡੇ ਪ੍ਰਯੋਗ ADPE ਡੇਟਾਸੇਟ ‘ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਅਤਿ-ਆਧੁਨਿਕ ਡੂੰਘੀ ਸਿਖਲਾਈ ਤਕਨੀਕਾਂ ਦਾ ਲਾਭ ਉਠਾਉਂਦੇ ਹਨ, ਜਿਵੇਂ ਕਿ BERT (ਟ੍ਰਾਂਸਫਾਰਮਰਾਂ ਤੋਂ ਦੋ-ਦਿਸ਼ਾਵੀ ਏਨਕੋਡਰ ਪ੍ਰਤੀਨਿਧਤਾ), LSTM (ਲੰਮੀ ਛੋਟੀ ਮਿਆਦ ਦੀ ਮੈਮੋਰੀ), CNNs (ਕਨਵੋਲਿਊਸ਼ਨਲ ਨਿਊਰਲ ਨੈੱਟਵਰਕ) ਦੋ ਪ੍ਰਾਇਮਰੀ ਵਿੱਚ। ਵਰਗੀਕਰਨ ਫਾਰਮੂਲੇ।ਪਹਿਲਾ ਹੈ ਨਾਮਿਤ ਇਕਾਈ ਦੀ ਪਛਾਣ ਲਈ ਕ੍ਰਮ ਟੈਗਿੰਗ ਅਤੇ ਦੂਜਾ ਅੰਕੜਾ, ਅਰਥ, ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ, ਟੈਕਸਟ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਅਤੇ ਡੀਪ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਉਹਨਾਂ ਨੂੰ ਸ਼੍ਰੇਣੀਬੱਧ ਕਰਨ ਲਈ ਉਮੀਦਵਾਰ n-ਗ੍ਰਾਮ ਬਣਾਉਣ ਲਈ n-ਗ੍ਰਾਮ ਵਰਗੀਕਰਨ ਹੈ।
ਅਸੀਂ ਵਿਗਿਆਨਕ ਰਸਾਲਿਆਂ ਅਤੇ ਕਿਤਾਬਾਂ ਦੇ ਅਧਿਆਵਾਂ ‘ਤੇ ਵਿਸਤ੍ਰਿਤ ਸ਼ਬਦਾਵਲੀ ਅਤੇ ਵਧੀਆ ਟਿਊਨਡ ਨਾਲ BERT ਅਨਕੇਸਡ ਮਾਡਲ ਦਾ ਲਾਭ ਉਠਾਉਂਦੇ ਹਾਂ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇੰਪੁੱਟ ਟੈਕਸਟ ਤੋਂ ਸੰਕਲਪਾਂ ਨੂੰ ਖੋਜਣ ਲਈ ਸਾਰੀਆਂ ਏਨਕੋਡਰ ਲੇਅਰਾਂ ਦੀ ਨੁਮਾਇੰਦਗੀ ਇੱਕ ਸੀਮਤ-ਪਰਿਵਰਤਨ (BIO ਏਨਕੋਡਿੰਗ) CRF (ਕੰਡੀਸ਼ਨਲ ਬੇਤਰਤੀਬ ਖੇਤਰ) ਕ੍ਰਮਵਾਰ ਟੈਗਰ ਵਿੱਚ ਫੀਡ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
ਕਿਉਂ CRF (ਕੰਡੀਸ਼ਨਲ ਰੈਂਡਮ ਫੀਲਡ):
- CRF ਕ੍ਰਮ ਦੀ ਲੌਗ ਸੰਭਾਵਨਾ ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਦਾ ਹੈ ਅਤੇ ਕ੍ਰਮ ਟੈਗਸ ਦੀ ਵੱਧ ਤੋਂ ਵੱਧ ਸੰਭਾਵਨਾ ਅਨੁਮਾਨ ਪੈਦਾ ਕਰਦਾ ਹੈ।
- CRF ਪਾਬੰਦੀਆਂ ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦੀਆਂ ਹਨ ਕਿ ਲੇਬਲ ਏਨਕੋਡਿੰਗ ਦੁਆਰਾ ਨਿਰਧਾਰਤ ਕੀਤੇ ਅਨੁਸਾਰ ਸਿਰਫ਼ ਵੈਧ ਮਲਟੀਗ੍ਰਾਮ ਕ੍ਰਮ ਲੇਬਲ ਹੀ ਤਿਆਰ ਕੀਤੇ ਗਏ ਹਨ – (ਉਦਾਹਰਨ ਲਈ: BIO ਏਨਕੋਡਿੰਗ ਇੱਕ ਕ੍ਰਮ ਵਿੱਚ ਇਕਾਈ ਦੇ ਵਿਭਾਜਨ ਦੀ ਗਾਰੰਟੀ ਦਿੰਦੀ ਹੈ ਪਰ ਇਸਦੇ ਕੁਝ ਵਿਆਕਰਣ ਨਿਯਮ ਹਨ ਜੋ ਪੂਰੇ ਕੀਤੇ ਜਾਣੇ ਚਾਹੀਦੇ ਹਨ)
- CRF ਕ੍ਰਮਵਾਰ ਲੌਗ ਸੰਭਾਵਨਾ ਨੂੰ ਨੁਕਸਾਨ ਵਜੋਂ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ ਜੋ ਇੱਕ ਆਮ ਲੀਨੀਅਰ ਲੇਅਰ ਨਾਲੋਂ ਨੈੱਟਵਰਕ ਦੇ (ਜੇ ਅਣਫ੍ਰੋਜ਼ਨ ਛੱਡ ਦਿੱਤਾ ਗਿਆ ਹੈ) ਆਉਟਪੁੱਟ ਲੌਗਿਟਸ ਨੂੰ ਬਿਹਤਰ ਢੰਗ ਨਾਲ ਅਨੁਕੂਲ ਬਣਾਉਂਦਾ ਹੈ ਜਿਵੇਂ ਕਿ CRF ਫਾਈਨ ਟਿਊਨਡ ਲੀਨੀਅਰ ਲੇਅਰ ਨਾਲ ਇੱਕ ਸਧਾਰਨ ਰੇਖਿਕ ਪਰਤ ਦੇ ਆਉਟਪੁੱਟ ਦੀ ਤੁਲਨਾ ਕਰਕੇ ਪੁਸ਼ਟੀ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ।
ਸੰਖੇਪ:
Embibe ਦੇ ਸਾਰੇ ਉਤਪਾਦਾਂ ਲਈ ਨੌਲੇਜ ਗ੍ਰਾਫ਼ ਰੀੜ੍ਹ ਦੀ ਹੱਡੀ ਹੈ। ਇਸ ਲਈ ਨੌਲੇਜ ਗ੍ਰਾਫ ਨੂੰ ਪੂਰਾ ਕਰਨਾ ਸਾਡਾ ਮੁੱਢਲਾ ਕੰਮ ਹੈ। ਇਸ ਕੰਮ ਨੇ ਨੌਲੇਜ ਗ੍ਰਾਫ ਨੂੰ ਬਣਾਈ ਰੱਖਣ ਅਤੇ ਬਹੁਤ ਘੱਟ ਦਸਤੀ ਦਖਲਅੰਦਾਜ਼ੀ ਨਾਲ ਇਸ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਵਧਾਉਣ ਵਿੱਚ ਸਾਡੀ ਮਦਦ ਕੀਤੀ।
ਇਸ ਅਭਿਆਸ ਮਾਡਲ ਵਿੱਚ BERT ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ ਅਤੇ ਡਾਟਾ ਪ੍ਰੋਸੈਸਿੰਗ, ਮਾਡਲਿੰਗ ਅਤੇ ਪ੍ਰਮਾਣਿਕਤਾ ਲਈ ਹੋਰ ਤਕਨੀਕਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਅਕਾਦਮਿਕ ਤੌਰ ‘ਤੇ ਵਿਭਿੰਨ ਵਾਕਾਂਸ਼ ਐਕਸਟਰੈਕਟਰ ਦੀ ਵਰਤੋਂ ਕੱਚੇ ਅਕਾਦਮਿਕ ਪਾਠ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਅਕਾਦਮਿਕ ਸ਼ਬਦਾਂ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾ ਰਹੀ ਹੈ ਅਤੇ ਇਸ ਤਰ੍ਹਾਂ, ਅਸੀਂ ਵੱਖ-ਵੱਖ ਸਰੋਤਾਂ ਤੋਂ ਦਿੱਤੇ ਪਾਠ ਸੰਬੰਧੀ ਡੇਟਾ ਤੋਂ ਸੰਕਲਪ ਖੋਜਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਸਵੈਚਲਿਤ ਕੀਤਾ ਹੈ।
ਹਵਾਲੇ:
[1] ਡੇਵਲੀਨ ਜੈਕਬ, ਮਿੰਗ-ਵੇਈ ਚਾਂਗ, ਕੈਂਟਨ ਲੀ, ਅਤੇ ਕ੍ਰਿਸਟੀਨਾ ਟੂਟਾਨੋਵਾ। ਬਰਟ: ਭਾਸ਼ਾ ਦੀ ਸਮਝ ਲਈ ਡੂੰਘੇ ਦੋ-ਦਿਸ਼ਾਵੀ ਟ੍ਰਾਂਸਫਾਰਮਰਾਂ ਦੀ ਪੂਰਵ-ਸਿਖਲਾਈ। arXiv ਪ੍ਰੀਪ੍ਰਿੰਟ arXiv:1810.04805 (2018)।
[2] ਝੀਹੇਂਗ ਹੁਆਂਗ, ਵੇਈ ਜ਼ੂ, ਕਾਈ ਯੂ। ਕ੍ਰਮ ਟੈਗਿੰਗ ਲਈ ਦੋ-ਦਿਸ਼ਾਵੀ LSTM-CRF ਮਾਡਲ। arXiv ਪ੍ਰੀਪ੍ਰਿੰਟ arXiv:1508.01991 (2015)
[3] ਵਿਲੀਅਮ ਕੈਵਨਰ ਅਤੇ ਜੌਹਨ ਟਰੈਂਕਲ। ਐਨ-ਗ੍ਰਾਮ-ਅਧਾਰਿਤ ਟੈਕਸਟ ਵਰਗੀਕਰਨ। SDAIR-94 ਦੀ ਕਾਰਵਾਈ ਵਿੱਚ, ਦਸਤਾਵੇਜ਼ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਸੂਚਨਾ ਪ੍ਰਾਪਤੀ (ਲਾਸ ਵੇਗਾਸ, ਯੂਐਸ, 1994), pp. 161-175 ‘ਤੇ ਤੀਸਰਾ ਸਾਲਾਨਾ ਸਿੰਪੋਜ਼ੀਅਮ।
[4] ਗੌੜ, ਮਾਨਸ, ਕੀਯੂਰ ਫਲਦੂ, ਅਤੇ ਅਮਿਤ ਸੇਠ। “ਬਲੈਕ-ਬਾਕਸ ਦੇ ਅਰਥ ਵਿਗਿਆਨ: ਕੀ ਨੌਲੇਜ ਗ੍ਰਾਫ਼ ਡੂੰਘੇ ਸਿਖਲਾਈ ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਵਧੇਰੇ ਵਿਆਖਿਆਯੋਗ ਅਤੇ ਵਿਆਖਿਆਯੋਗ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ?।” IEEE ਇੰਟਰਨੈਟ ਕੰਪਿਊਟਿੰਗ 25, ਨੰ. 1 (2021): 51-59.