ਡੀਡੁਪਲੀਕੇਸ਼ਨ: ਇੱਕ ਤਕਨੀਕੀ ਸੰਖੇਪ ਜਾਣਕਾਰੀ

ਇੱਕ ਐਡਟੈੱਕ ਪਲੇਟਫਾਰਮ ਦੇ ਰੂਪ ਵਿੱਚ, Embibe ਸਿੱਖਣ ਦੀਆਂ ਵਸਤੂਆਂ ਦੇ ਇੱਕ ਵਿਸ਼ਾਲ ਪੂਲ ਨੂੰ ਤਿਆਰ ਕਰਦਾ ਹੈ ਅਤੇ ਪ੍ਰਬੰਧਿਤ ਕਰਦਾ ਹੈ ਜੋ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਉਹਨਾਂ ਦੀਆਂ ਸਿੱਖਣ ਦੀਆਂ ਲੋੜਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਪ੍ਰਦਾਨ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਇਹ ਸਮੱਗਰੀ ਪੂਲ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਕਿਸੇ ਵੀ ਅਕਾਦਮਿਕ ਸੰਕਲਪ ਨਾਲ ਉਪਭੋਗਤਾ ਨੂੰ ਸਿੱਖਿਅਤ ਕਰਨ ਲਈ ਵੀਡੀਓ, ਵਿਆਖਿਆਕਾਰ, ਇੰਟਰਐਕਟਿਵ ਸਿੱਖਣ ਦੇ ਤੱਤ ਵਰਗੀ ਸਮੱਗਰੀ ਰੱਖਦਾ ਹੈ। ਨਾਲ ਹੀ, ਇਸ ਵਿੱਚ ਅਜਿਹੇ ਸਵਾਲ ਸ਼ਾਮਲ ਹਨ ਜਿਨ੍ਹਾਂ ਨੂੰ ਗੇਮੀਫਾਈਡ ਪ੍ਰੈਕਟਿਸ ਅਤੇ ਟੈਸਟ ਅਨੁਭਵ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਸਮਝਦਾਰੀ ਨਾਲ ਇਕੱਠੇ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ। Embibe ਵਿਖੇ, ਪ੍ਰੈਕਟਿਸ ਅਤੇ ਟੈਸਟ ਕਹਾਣੀ ਦੇ ਅਧੀਨ ਉਪਭੋਗਤਾ ਦੀ ਸ਼ਮੂਲੀਅਤ ਸਾਨੂੰ ਮਹੱਤਵਪੂਰਨ ਅਕਾਦਮਿਕ, ਵਿਵਹਾਰ, ਟੈਸਟ-ਲੈਣ, ਟੈਸਟ-ਪੱਧਰ, ਅਤੇ ਉਪਭੋਗਤਾ ਯਤਨਾਂ ਨਾਲ ਸਬੰਧਤ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ ਜੋ ਉਪਭੋਗਤਾ ਦੀ ਯਾਤਰਾ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣ ਅਤੇ ਵਿਦਿਆਰਥੀ ਨੂੰ ਉਹਨਾਂ ਦੀ ਵੱਧ ਤੋਂ ਵੱਧ ਸਮਰੱਥਾ ਨੂੰ ਅਨਲੌਕ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ। ਪ੍ਰੈਕਟਿਸ ਅਤੇ ਟੈਸਟ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੀ ਮਹੱਤਤਾ ਨੂੰ ਦੇਖਦੇ ਹੋਏ, ਅਸੀਂ ਵੱਧ ਤੋਂ ਵੱਧ ਉਪਭੋਗਤਾ ਦੀ ਸ਼ਮੂਲੀਅਤ ਅਤੇ ਧਾਰਨ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਵਿੱਚ ਵਿਸ਼ਵਾਸ ਕਰਦੇ ਹਾਂ।

ਇੱਥੇ ਵੱਖ-ਵੱਖ ਸਰੋਤ ਹਨ ਜਿਨ੍ਹਾਂ ਦੁਆਰਾ ਪ੍ਰਸ਼ਨਾਂ ਦਾ ਪੂਲ ਤਿਆਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ – ਅੰਦਰੂਨੀ ਫੈਕਲਟੀ ਅਤੇ ਵਿਸ਼ਾ ਵਸਤੂ ਮਾਹਿਰ, ਅਕਾਦਮਿਕ ਸਲਾਹਕਾਰ, ਅਤੇ ਹੋਰ ਕਈ ਕਰਮਚਾਰੀ ਇਸ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ। ਪੂਲ ਵਿੱਚ ਮਸ਼ਹੂਰ ਪਾਠ-ਪੁਸਤਕਾਂ ਅਤੇ ਹਵਾਲਾ ਸਮੱਗਰੀ ਦੇ ਸਵਾਲ ਵੀ ਸ਼ਾਮਲ ਹਨ। ਸਮੱਗਰੀ ਪੂਲ ਨੂੰ ਚਲਾਉਣ ਵਿੱਚ ਕਈ ਸੰਸਥਾਵਾਂ ਦੀ ਸ਼ਮੂਲੀਅਤ ਅਤੇ ਸ਼ਮੂਲੀਅਤ ਨੂੰ ਚਲਾਉਣ ਵਿੱਚ ਸਮੱਗਰੀ ਦੀ ਮਹੱਤਤਾ ਦੇ ਮੱਦੇਨਜ਼ਰ, ਸਮੱਗਰੀ ਦੀ ਗੁਣਵੱਤਾ ਦਾ ਧਿਆਨ ਰੱਖਣਾ ਜ਼ਰੂਰੀ ਹੋ ਜਾਂਦਾ ਹੈ। ਕਈ ਕੁਆਲਿਟੀ-ਸਬੰਧਤ ਮੁੱਦੇ ਪੈਮਾਨੇ ‘ਤੇ ਸਮਗਰੀ ਕਿਊਰੇਸ਼ਨ ਨਾਲ ਜੁੜੇ ਹੋਏ ਹਨ, ਜਿਵੇਂ ਕਿ ਸਮੱਗਰੀ ਦੀ ਨਕਲ, ਪ੍ਰਸ਼ਨ ਸ਼ੁੱਧਤਾ ਮੁੱਦੇ, ਅਧੂਰੇ ਸਵਾਲ, ਗਲਤ ਮੈਟਾ ਟੈਗਿੰਗ, ਕੁਝ ਨਾਮ ਕਰਨ ਲਈ। ਇਸ ਲੇਖ ਵਿੱਚ, ਅਸੀਂ ਸਮਗਰੀ ਦੀ ਡੁਪਲੀਕੇਸ਼ਨ ਮੁੱਦੇ ਅਤੇ ਇਸ ਨਾਲ ਨਜਿੱਠਣ ਲਈ Embibe ਵਿਖੇ ਵਰਤੀ ਜਾ ਰਹੀ ਬੁੱਧੀਮਾਨ ਪ੍ਰਣਾਲੀ ਬਾਰੇ ਚਰਚਾ ਕਰਾਂਗੇ।

ਸਮੱਗਰੀ ਡੁਪਲੀਕੇਸ਼ਨ ਅਤੇ ਰੈਜ਼ੋਲਿਊਸ਼ਨ

ਸਿਸਟਮ ਵਿੱਚ ਸਮਗਰੀ ਦੀ ਨਕਲ (ਟੈਸਟ/ਪ੍ਰੈਕਟਿਸ ਸਮੱਸਿਆਵਾਂ/ਸਵਾਲ) ਉਹਨਾਂ ਮੁੱਦਿਆਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ ਜੋ ਉਪਭੋਗਤਾ ਦੀ ਸ਼ਮੂਲੀਅਤ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰਦੇ ਹਨ। ਚੰਗੀ ਤਰ੍ਹਾਂ ਸਮਝਣ ਲਈ, ਇਸਦੀ ਤੁਲਨਾ “ਫੇਸਬੁੱਕ ਜਾਂ ਇੰਸਟਾਗ੍ਰਾਮ ਨਾਲ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ ਜਦੋਂ ਕੋਈ ਉਪਭੋਗਤਾ ਸਕ੍ਰੋਲ ਕਰਨ ਵਿੱਚ ਰੁੱਝਿਆ ਹੁੰਦਾ ਹੈ ਤਾਂ ਉਹੀ ਵੀਡੀਓ/ਚਿੱਤਰ ਨੂੰ ਦੁਹਰਾਉਣਾ ਹੁੰਦਾ ਹੈ; ਇਸ ਨੂੰ ਸਵੀਕਾਰ ਕਰੋ, ਇਹ ਉਪਭੋਗਤਾ ਦੀ ਸ਼ਮੂਲੀਅਤ ਨੂੰ ਰੋਕਦਾ ਹੈ, ਅਤੇ ਸਭ ਤੋਂ ਮਾੜੀ ਗੱਲ ਇਹ ਹੈ ਕਿ ਉਪਭੋਗਤਾ ਪਲੇਟਫਾਰਮ ਤੋਂ ਸਦਾ ਲਈ ਝੁਕ ਸਕਦਾ ਹੈ।” ਇਸੇ ਤਰ੍ਹਾਂ, ਜੇਕਰ ਉਹੀ ਪ੍ਰਸ਼ਨ ਵਿਦਿਆਰਥੀ ਨੂੰ ਉਸੇ ਪ੍ਰੈਕਟਿਸ ਜਾਂ ਟੈਸਟ ਸੈਸ਼ਨਾਂ ਵਿੱਚ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਇਹ ਯਕੀਨੀ ਤੌਰ ‘ਤੇ ਉਪਭੋਗਤਾ ਦੇ ਡਰਾਪ-ਆਫ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਵੇਗਾ।

Embibe ਵਿਖੇ, ਇਸ ਮੁੱਦੇ ਨਾਲ ਨਜਿੱਠਣ ਲਈ, ਅਸੀਂ ਇੱਕ ਹਾਈਬ੍ਰਿਡ ਪਹੁੰਚ ਅਪਣਾਈ ਹੈ ਜੋ ਸਵਾਲਾਂ ਦੇ ਡੁਪਲੀਕੇਟਸ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ ਸਿੰਟੈਕਸ (ਸੰਪਾਦਨ-ਦੂਰੀ) ਆਧਾਰਿਤ ਉਪਾਵਾਂ ਅਤੇ ਡੀਪ ਲਰਨਿੰਗ-ਅਧਾਰਿਤ (ਰੈਸਨੈੱਟ-18 ਕਨਵੋਲਿਊਸ਼ਨਲ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਆਰਕੀਟੈਕਚਰ) ਸੰਘਣੀ ਵੈਕਟਰ ਸਮਾਨਤਾਵਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦੀ ਹੈ। . ਅਸੀਂ ਡਿਡਪਲੀਕੇਸ਼ਨ ਪਾਈਪਲਾਈਨ ਨੂੰ ਲਾਗੂ ਕਰਨ ਲਈ ਇਲਾਸਟਿਕਸਰਚ ਦੀ (ਲੂਸੀਨ) ਕੋਰ ਕਾਰਜਸ਼ੀਲਤਾਵਾਂ ਜਿਵੇਂ ਕਿ ਟੈਕਸਟ ਸਮੱਗਰੀ ‘ਤੇ ਫੁੱਲ-ਟੈਕਸਟ ਪੁੱਛਗਿੱਛਾਂ, ਅਤੇ ਸੰਘਣੀ ਵੈਕਟਰ ਫੀਲਡਸ ‘ਤੇ ਤਾਜ਼ਾ ਸਕ੍ਰਿਪਟ ਸਕੋਰ ਸਵਾਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ। ਸਾਡੀਆਂ ਸਿੱਖਣ ਵਾਲੀਆਂ ਵਸਤੂਆਂ (ਸਵਾਲਾਂ) ਵਿੱਚ ਪਾਠ (ਪ੍ਰਸ਼ਨ ਪਾਠ, ਉੱਤਰ ਪਾਠ) ਦੇ ਨਾਲ-ਨਾਲ ਚਿੱਤਰ/ਚਿੱਤਰ ਜਾਣਕਾਰੀ (ਅੰਕੜੇ, ਚਿੱਤਰ, ਆਦਿ) ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ, ਅਤੇ ਪਾਈਪਲਾਈਨ ਸਮੱਗਰੀ ਪੂਲ ਤੋਂ ਸਹੀ ਡੁਪਲੀਕੇਟ ਹਮਰੁਤਬਾ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ ਦੋਵਾਂ ਨੂੰ ਸਮਝਦੀ ਹੈ। ਅਸੀਂ ਸਿਸਟਮ ਵਿੱਚ ਡੁਪਲੀਕੇਟ ਪ੍ਰਸ਼ਨਾਂ ਦੀ ਰਚਨਾ ਅਤੇ ਗ੍ਰਹਿਣ ਨੂੰ ਰੋਕਣ ਲਈ ਉਸੇ ਪਹੁੰਚ ਦੇ ਦੁਆਲੇ ਲਪੇਟ ਕੇ ਇੱਕ ਰੀਅਲ-ਟਾਈਮ ਉਪਯੋਗਤਾ ਨੂੰ ਵੀ ਸਮਰੱਥ ਬਣਾਇਆ ਹੈ; ਇਹ ਡੁਪਲੀਕੇਸ਼ਨ ਲਈ ਗੇਟ-ਕੀਪਿੰਗ ਵਾਂਗ ਕੰਮ ਕਰਦਾ ਹੈ। ਗਿਆਨ ਜਾਗਰੂਕ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਅਤੇ ਡੂੰਘੇ ਸਿੱਖਣ ਵਾਲੇ ਮਾਡਲਾਂ [1][2] ਤੋਂ ਵਿਆਖਿਆਯੋਗ ਜਾਣਕਾਰੀ ਤੱਕ ਪਹੁੰਚ ਕਰਕੇ ਟੈਕਸਟ ਦੀ ਅਰਥਵਾਦੀ ਸਮਾਨਤਾ ਨੂੰ ਹੋਰ ਵਧਾਇਆ ਜਾ ਸਕਦਾ ਹੈ। ਵਿਆਖਿਆਯੋਗ ਮਾਡਲ ਮਾਡਲਾਂ [3] ਦੇ ਨਤੀਜਿਆਂ ‘ਤੇ ਭਰੋਸਾ ਕਰਨ ਲਈ ਅਕਾਦਮੀਸ਼ੀਅਨਾਂ ਵਿੱਚ ਵਿਸ਼ਵਾਸ ਪੈਦਾ ਕਰ ਸਕਦੇ ਹਨ।

ਅਸੀਂ ਹੇਠਾਂ ਦਰਸਾਏ ਗਏ ਡੇਟਾ ਫਲੋ ਡਾਇਗ੍ਰਾਮ ਦੁਆਰਾ ਇਸ ਪਾਈਪਲਾਈਨ ਨੂੰ ਸੰਖੇਪ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ:

ਥ੍ਰੈਸ਼ਹੋਲਡ ਚੋਣ:

ਸਮਗਰੀ ਡੀਡੁਪਲੀਕੇਸ਼ਨ ਪਾਈਪਲਾਈਨ ਲਈ, ਥ੍ਰੈਸ਼ਹੋਲਡ ਦੀ ਚੋਣ/ਟਿਊਨਿੰਗ ਸਮੱਸਿਆ ਦੇ ਮੂਲ ਵਿੱਚ ਹੈ। ਇਹ ਸਮਾਨ ਅਤੇ ਗੈਰ-ਡੁਪਲੀਕੇਟ ਸਵਾਲਾਂ ਨੂੰ ਡੁਪਲੀਕੇਟ ਸਵਾਲਾਂ ਤੋਂ ਵੱਖ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ। ਇੱਥੇ, ਢੁਕਵੇਂ ਥ੍ਰੈਸ਼ਹੋਲਡ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ, ਅਸੀਂ ਲੇਬਲ ਕੀਤੇ ਡੇਟਾਸੈਟ ਨੂੰ ਤਿਆਰ ਕਰਨ ਲਈ ਵਿਸ਼ਾ ਵਸਤੂ ਮਾਹਿਰਾਂ ਦੀ ਮਦਦ ਲਈ ਹੈ, ਜਿੱਥੇ ਉਹਨਾਂ ਨੂੰ ਐਂਕਰ ਪ੍ਰਸ਼ਨ ਅਤੇ ਉਮੀਦਵਾਰਾਂ ਦੀ ਸੂਚੀ ਦਿੱਤੀ ਗਈ ਹੈ। ਉਹਨਾਂ ਨੂੰ ਜੋੜਿਆਂ ਨੂੰ ਡੁਪਲੀਕੇਟ ਜਾਂ ਨਾਟ-ਡੁਪਲੀਕੇਟ ਵਜੋਂ ਚਿੰਨ੍ਹਿਤ ਕਰਨ ਲਈ ਕਿਹਾ ਗਿਆ ਸੀ। ਉਮੀਦਵਾਰ ਪੈਦਾ ਕਰਨ ਲਈ, ਚਿੱਤਰ ਸੰਘਣੇ ਵੈਕਟਰਾਂ ‘ਤੇ ਲਚਕੀਲੇ ਖੋਜ ਦੇ ਫੁੱਲ-ਟੈਕਸਟ ਸਵਾਲਾਂ ਅਤੇ ਸਕ੍ਰਿਪਟ ਸਕੋਰ ਸਵਾਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਸਮੱਗਰੀ ਪੂਲ ਤੋਂ ਚੋਟੀ ਦੇ k ਉਮੀਦਵਾਰਾਂ ਦੀ ਚੋਣ ਕੀਤੀ ਗਈ ਸੀ।

ਹੁਣ, ਸਹੀ ਥ੍ਰੈਸ਼ਹੋਲਡ ਮੁੱਲ ਦੀ ਚੋਣ ਕਰਨ ਲਈ, ਲੇਬਲ ਕੀਤੇ ਡੇਟਾਸੈਟ ਦੇ ਵਿਰੁੱਧ ਵੱਧ ਤੋਂ ਵੱਧ ਸ਼ੁੱਧਤਾ ਸਕੋਰ ਉਦੇਸ਼ ਦੇ ਨਾਲ ਵੱਖ-ਵੱਖ ਥ੍ਰੈਸ਼ਹੋਲਡ ਮੁੱਲਾਂ (ਰੇਂਜ: 0.5 ਤੋਂ 1.0, ਸਟੈਪ-ਸਾਈਜ਼: 0.05) ਉੱਤੇ ਇੱਕ ਗਰਿੱਡ ਖੋਜ ਨੂੰ ਲਗਾਇਆ ਗਿਆ ਸੀ। ਇੱਥੇ ਐਂਕਰ ਪ੍ਰਸ਼ਨਾਂ ਲਈ ਚੋਟੀ ਦੇ k ਉਮੀਦਵਾਰ ਤਿਆਰ ਕੀਤੇ ਗਏ ਸਨ ਅਤੇ ਵੱਖ-ਵੱਖ ਥ੍ਰੈਸ਼ਹੋਲਡ ਮੁੱਲਾਂ ‘ਤੇ ਸ਼ੁੱਧਤਾ ਨੰਬਰ ਲਏ ਗਏ ਸਨ। ਸਮਾਨਤਾ ਸਕੋਰ ਥ੍ਰੈਸ਼ਹੋਲਡ ਜੋ ਵੱਧ ਤੋਂ ਵੱਧ ਸ਼ੁੱਧਤਾ ਪੈਦਾ ਕਰਦਾ ਹੈ, ਨੂੰ ਅੰਤਿਮ ਥ੍ਰੈਸ਼ਹੋਲਡ ਮੁੱਲ ਵਜੋਂ ਚੁਣਿਆ ਗਿਆ ਸੀ।

ਬੈਂਚਮਾਰਕਿੰਗ ਪ੍ਰਕਿਰਿਆ

ਹੋਲਡ-ਆਉਟ ਲੇਬਲ ਵਾਲੇ ਸੈੱਟ ਦੇ ਵਿਰੁੱਧ, ਜ਼ਿਕਰ ਕੀਤੇ ਡੁਪਲੀਕੇਟ ਪਛਾਣ ਪ੍ਰਕਿਰਿਆ ਦੀ ਇੱਕ ਬੈਂਚਮਾਰਕਿੰਗ ਕੀਤੀ ਗਈ ਹੈ। ਹੇਠਾਂ ਦਿੱਤੀ ਸਾਰਣੀ ਵਿੱਚ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦਾ ਜ਼ਿਕਰ ਹੈ:

ਡਾਟਾਸੈੱਟ ਆਕਾਰਸ਼ੁੱਧਤਾ (ਸਹੀ ਚਿੰਨ੍ਹਿਤ)
ਲੇਬਲ ਕੀਤੇ ਪ੍ਰਸ਼ਨ ਜੋੜਿਆਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ: ਸਿਰਫ਼ ਟੈਕਸਟ, ਟੈਕਸਟ + ਚਿੱਤਰ, ਸਿਰਫ਼ ਚਿੱਤਰ511483.1% (4250)
ਲੇਬਲ ਕੀਤੇ ਪ੍ਰਸ਼ਨ ਜੋੜਿਆਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ: ਟੈਕਸਟ + ਚਿੱਤਰ, ਕੇਵਲ ਚਿੱਤਰ271080.1% (2193)

ਸਿੱਟਾ ਅਤੇ ਭਵਿੱਖ ਦਾ ਕੰਮ

ਹਾਲਾਂਕਿ 80%+ ਸਟੀਕਤਾ ਬਹੁਤ ਸਾਰੇ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਕਾਰਜਾਂ ਵਿੱਚ ਕਾਫੀ ਹੈ, ਜਿਸ ਪੈਮਾਨੇ ‘ਤੇ Embibe ਕੰਮ ਕਰਦਾ ਹੈ ਉਸ ਨੂੰ ਮੈਨੂਅਲ ਤਸਦੀਕ ਨੂੰ ਹੋਰ ਘਟਾਉਣ ਲਈ ਵਧੇਰੇ ਸਟੀਕ ਮਾਡਲਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਸਿਮੈਂਟਿਕ ਸਮਾਨਤਾ ਅਧਾਰਤ ਟੈਕਸਟ ਮਾਈਨਿੰਗ ਵਿੱਚ ਮੌਜੂਦਾ ਵਿਕਾਸ ਦੇ ਨਾਲ, Embibe 90%+ ਸ਼ੁੱਧਤਾ ਦੇ ਟੀਚੇ ਦੇ ਨਾਲ ਇੱਕ ਸੰਘਣੀ ਵੈਕਟਰ (ਚਿੱਤਰ ਅਤੇ ਟੈਕਸਟ ਏਮਬੈਡਿੰਗ) ਅਧਾਰਤ ਸਮਗਰੀ ਸਮਾਨਤਾ ਐਲਗੋਰਿਦਮ ਦਾ ਵਿਕਾਸ ਕਰ ਰਿਹਾ ਹੈ।

ਹਵਾਲੇ

[1] ਫਲਦੂ, ਕੀਯੂਰ, ਅਮਿਤ ਸ਼ੇਠ, ਪ੍ਰਸ਼ਾਂਤ ਕਿਕਾਨੀ, ਅਤੇ ਹੇਮਾਂਗ ਅਕਬਰੀ। “KI-BERT: ਬਿਹਤਰ ਭਾਸ਼ਾ ਅਤੇ ਡੋਮੇਨ ਸਮਝ ਲਈ ਗਿਆਨ ਸੰਦਰਭ ਨੂੰ ਭਰਨਾ।” arXiv ਪ੍ਰੀਪ੍ਰਿੰਟ arXiv:2104.08145 (2021)।

[2] ਗੌੜ, ਮਾਨਸ, ਕੀਯੂਰ ਫਲਦੂ, ਅਤੇ ਅਮਿਤ ਸੇਠ। “ਬਲੈਕ-ਬਾਕਸ ਦੇ ਅਰਥ ਵਿਗਿਆਨ: ਕੀ ਗਿਆਨ ਗ੍ਰਾਫ਼ ਡੂੰਘੇ ਸਿਖਲਾਈ ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਵਧੇਰੇ ਵਿਆਖਿਆਯੋਗ ਅਤੇ ਵਿਆਖਿਆਯੋਗ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ?।” IEEE ਇੰਟਰਨੈਟ ਕੰਪਿਊਟਿੰਗ 25, ਨੰ. 1 (2021): 51-59.

[3] ਗੌੜ, ਮਾਨਸ, ਅੰਕਿਤ ਦੇਸਾਈ, ਕੇਯੂਰ ਫਲਦੂ, ਅਤੇ ਅਮਿਤ ਸ਼ੇਠ। “ਗਿਆਨ ਗ੍ਰਾਫ਼ਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਵਿਆਖਿਆਯੋਗ AI।” ACM CoDS-COMAD ਕਾਨਫਰੰਸ ਵਿੱਚ। 2020।