Embibe ਪੈਮਾਨੇ ‘ਤੇ ਸਿੱਖਣ ਦੇ ਨਤੀਜੇ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਇੱਕ AI ਪਲੇਟਫਾਰਮ ਹੈ [5][6]। ਅਸੀਂ ਦੁਨੀਆ ਭਰ ਦੇ ਵਿਦਿਆਰਥੀਆਂ ਲਈ ਵਚਨਬੱਧ ਹਾਂ, ਕਿਸੇ ਵੀ ਭਾਸ਼ਾ ਵਿੱਚ ਪੜ੍ਹ ਰਹੇ ਹਾਂ। ਅਨੁਵਾਦ ਪ੍ਰੋਜੈਕਟ ਦਾ ਟੀਚਾ ਭਾਰਤ ਦੇ ਲੱਖਾਂ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਸਥਾਨਕ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਵਿਦਿਅਕ ਸਮੱਗਰੀ ਪ੍ਰਦਾਨ ਕਰਨਾ ਹੈ। ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਕਿ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਉਹਨਾਂ ਦੀ ਸਿੱਖਣ ਦੀ ਯਾਤਰਾ ਦੌਰਾਨ ਵਿਅਕਤੀਗਤ ਲਰਨਿੰਗ , ਪ੍ਰੈਕਟਿਸ ਅਤੇ ਮੁਲਾਂਕਣ ਸਮੱਗਰੀ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਸਮੱਗਰੀ ਨੂੰ ਸੋਧਣਾ, ਬਣਾਉਣਾ ਜਾਂ ਅਨੁਵਾਦ ਕਰਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ [7][8]।

ਜ਼ਿਆਦਾਤਰ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੀ ਅਕਾਦਮਿਕ ਸਮੱਗਰੀ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਉਪਲਬਧ ਹੈ। ਇਹ ਸਾਡੇ ਵਿਦਿਆਰਥੀਆਂ ਲਈ ਬਹੁਤ ਵਧੀਆ ਹੋਵੇਗਾ ਜੇਕਰ ਅਸੀਂ ਉਨ੍ਹਾਂ ਨੂੰ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰ ਸਕੀਏ। ਇਸ ਲਈ, ਅਸੀਂ ਭਾਰਤ ਦੀ ਹਰੇਕ ਪ੍ਰਮੁੱਖ ਸਥਾਨਕ ਭਾਸ਼ਾ ਲਈ ਇਨ-ਹਾਊਸ NMT (ਨਿਊਰਲ ਮਸ਼ੀਨ ਟ੍ਰਾਂਸਲੇਸ਼ਨ) ਮਾਡਲ ਬਣਾਏ ਹਨ। ਹਰੇਕ ਮਾਡਲ ਨੂੰ ਇਨਪੁਟ ਵਜੋਂ ਅਕਾਦਮਿਕ ਅੰਗਰੇਜ਼ੀ ਵਾਕ(ਵਾਂ) ਪ੍ਰਾਪਤ ਹੋਵੇਗਾ ਅਤੇ ਪ੍ਰਦਾਨ ਕੀਤੀ ਟੀਚਾ ਭਾਸ਼ਾ ਵਿੱਚ ਅਨੁਵਾਦਿਤ ਵਾਕਾਂ(ਵਾਂ) ਨੂੰ ਆਉਟਪੁੱਟ ਕਰੇਗਾ।

ਵਰਤਮਾਨ ਵਿੱਚ, ਅਸੀਂ 11 ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦੇ ਹਾਂ ਜੋ ਹਨ,

  1. ਹਿੰਦੀ (hi)
  2. ਗੁਜਰਾਤੀ (gu)
  3. ਮਰਾਠੀ (mr)
  4. ਤਮਿਲ (ta)
  5. ਤੇਲਗੂ (te)
  6. ਬੰਗਾਲੀ (bn)
  7. ਕੰਨੜ (kn)
  8. ਅਸਾਮੀ (as)
  9. ਉੜੀਆ (or)
  10. ਪੰਜਾਬੀ (pa)
  11. ਮਲਿਆਲਮ(ml)

ਗੂਗਲ ਅਨੁਵਾਦ ਕਈ ਵਾਰ ਗਲਤੀਆਂ ਕਰਦਾ ਹੈ ਕਿਉਂਕਿ ਇਹ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਅਕਾਦਮਿਕ ਡੋਮੇਨ ਲਈ ਨਹੀਂ ਬਣਾਇਆ ਗਿਆ ਹੈ। ਇੱਥੇ ਕੁਝ ਉਦਾਹਰਣਾਂ ਹਨ:

EnglishGoogle translationNMT translation
which of the following law was given by Einstein:ਆਇਨਸਟਾਈਨ ਦੁਆਰਾ ਹੇਠ ਲਿਖਿਆਂ ਵਿੱਚੋਂ ਕਿਹੜਾ ਕਾਨੂੰਨ ਦਿੱਤਾ ਗਿਆ ਸੀ:ਆਇਨਸਟਾਈਨ ਦੁਆਰਾ ਹੇਠ ਲਿਖਿਆਂ ਵਿੱਚੋਂ ਕਿਹੜਾ ਨਿਯਮ ਦਿੱਤਾ ਗਿਆ ਸੀ:
which one of the following is not alkaline earth metal?ਹੇਠ ਲਿਖੀਆਂ ਵਿੱਚੋਂ ਕਿਹੜੀ ਧਰਤੀ ਖਾਰੀ ਧਾਤ ਨਹੀਂ ਹੈ?ਹੇਠ ਲਿਖੀਆਂ ਵਿੱਚੋਂ ਕਿਹੜੀ ਮਿੱਟੀ ਖਾਰੀ ਧਾਤ ਨਹੀਂ ਹੈ?
Endogenous antigens are produced by intra-cellular bacteria within a host cell.ਐਂਡੋਜੇਨਸ ਐਂਟੀਜੇਨਜ਼ ਮੇਜ਼ਬਾਨ ਸੈੱਲ ਦੇ ਅੰਦਰ ਇੰਟਰਾ-ਸੈਲੂਲਰ ਬੈਕਟੀਰੀਆ ਦੁਆਰਾ ਪੈਦਾ ਕੀਤੇ ਜਾਂਦੇ ਹਨ।ਐਂਡੋਜੇਨਸ ਐਂਟੀਜੇਨਜ਼ ਪਰਪੋਸ਼ੀ ਸੈੱਲ ਦੇ ਅੰਦਰ ਅੰਤ: ਕੋਸ਼ਿਕ ਬੈਕਟੀਰੀਆ ਦੁਆਰਾ ਪੈਦਾ ਕੀਤੇ ਜਾਂਦੇ ਹਨ।

ਪਹੁੰਚ

ਹੁਣ, ਸ਼ੁਰੂ ਤੋਂ NMT ਮਾਡਲ ਬਣਾਉਣ ਲਈ, ਸਾਨੂੰ ਬਹੁਤ ਸਾਰੇ ਅਤੇ ਬਹੁਤ ਸਾਰੇ ਡੇਟਾ (ਕੁਝ ਮਿਲੀਅਨ ਵਾਕਾਂ) ਦੀ ਲੋੜ ਹੈ। ਇਸ ਲਈ, ਅਸੀਂ ਇੱਕ ਫੀਡਬੈਕ ਲੂਪ ਬਣਾਇਆ ਹੈ ਜੋ ਸਮੇਂ ਦੇ ਨਾਲ-ਨਾਲ ਸੁਧਾਰ ਕਰਦਾ ਰਹਿੰਦਾ ਹੈ। ਅਸੀਂ ਇੱਥੇ ਸਾਰੀਆਂ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਅਕਾਦਮਿਕ ਅਨੁਵਾਦਕਾਂ ਦੀ ਮਦਦ ਲਈ।

ਅਸੀਂ ਅਕਾਦਮਿਕ ਅਨੁਵਾਦਕਾਂ ਨੂੰ ਮਸ਼ੀਨ-ਅਨੁਵਾਦਿਤ (NMT ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ) ਵਾਕ(ਵਾਂ) ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਾਂ, ਅਤੇ ਫਿਰ ਮਾਡਲ ਨੂੰ ਅਨੁਕੂਲ ਰੂਪ ਨਾਲ ਅੱਪਡੇਟ ਕਰਨ ਲਈ ਅਕਾਦਮਿਕ ਅਨੁਵਾਦਕਾਂ ਤੋਂ ਫੀਡਬੈਕ ਸ਼ਾਮਲ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਮਸ਼ੀਨ ਦੁਆਰਾ ਅਨੁਵਾਦ ਕੀਤੇ ਵਾਕਾਂ ਦੀ ਗੁਣਵੱਤਾ ਸਮੇਂ ਦੇ ਨਾਲ ਸੁਧਾਰੀ ਜਾਂਦੀ ਹੈ।

ਇੱਥੇ ਇੱਕ ਚਿੱਤਰ ਹੈ ਜੋ ਪੂਰੇ ਪ੍ਰੋਜੈਕਟ ਦੀ ਸਮੁੱਚੀ ਬਣਤਰ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।

ਇਸ ਲਈ, ਸਾਡਾ ਹੱਲ “ਮਨੁੱਖੀ + AI” ਦੀ ਕਿਸਮ ਹੈ। ਦੋਵਾਂ ਸੰਸਾਰਾਂ ਦੇ ਸਰਵੋਤਮ ਦਾ ਲਾਭ ਉਠਾਉਣਾ।

ਚਿੱਤਰ-ਅਨੁਵਾਦ:

ਅਸੀਂ ਚਿੱਤਰ ਅਨੁਵਾਦ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਸਮੱਸਿਆ ਵੀ ਉਠਾਈ ਹੈ। ਜਿੱਥੇ ਅੰਗਰੇਜ਼ੀ ਲੇਬਲ ਵਾਲਾ ਇੱਕ ਚਿੱਤਰ ਦਿੱਤਾ ਜਾਵੇਗਾ ਅਤੇ ਆਉਟਪੁੱਟ ਨਿਸ਼ਾਨਾ ਭਾਸ਼ਾ ਵਿੱਚ ਲੇਬਲਾਂ ਵਾਲਾ ਇੱਕ ਚਿੱਤਰ ਹੋਵੇਗਾ।

ਉਦਾਹਰਨ ਲਈ, ਇਹ ਖੱਬੇ ਪਾਸੇ ਦੀ ਇਨਪੁਟ ਚਿੱਤਰ ਨੂੰ ਆਪਣੇ ਆਪ ਹੀ ਸੱਜੇ ਪਾਸੇ ਦੀ ਆਉਟਪੁੱਟ ਚਿੱਤਰ ਵਿੱਚ ਬਦਲ ਦਿੱਤਾ ਜਾਵੇਗਾ।

ਅਸੀਂ ਇਸਨੂੰ ਸੰਪੂਰਨ ਬਣਾਉਣ ਲਈ ਇਸ ਆਉਟਪੁੱਟ ਚਿੱਤਰ ਦੇ ਸਿਖਰ ‘ਤੇ ਮਾਮੂਲੀ ਫੌਂਟ-ਸਟਾਈਲਿੰਗ ਅੱਪਡੇਟ ਕਰ ਸਕਦੇ ਹਾਂ।

ਇਸ ਪ੍ਰੋਜੈਕਟ ਲਈ, ਅਸੀਂ ਪਹਿਲਾਂ ਚਿੱਤਰ ਤੋਂ ਟੈਕਸਟ ਲੇਬਲ ਖੋਜਦੇ ਹਾਂ, ਫਿਰ ਹਰੇਕ ਟੈਕਸਟ ਲੇਬਲ ਲਈ OCR ਕਰਦੇ ਹਾਂ, ਫਿਰ NMT API ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਉਹਨਾਂ ਦਾ ਅਨੁਵਾਦ ਕਰਦੇ ਹਾਂ। ਫਿਰ ਉਸ ਅਨੁਵਾਦਿਤ ਟੈਕਸਟ ਨੂੰ ਸਬੰਧਤ ਥਾਂ ‘ਤੇ ਚਿੱਤਰ ਵਿੱਚ ਪਾਓ।

ਇਸ ਲਈ, ਅਸੀਂ ਦੇਖਿਆ ਕਿ ਅਸੀਂ ਗੁਣਵੱਤਾ ਨਾਲ ਸਮਝੌਤਾ ਕੀਤੇ ਬਿਨਾਂ ਅਨੁਵਾਦ ਦੀ ਕੁੱਲ ਲਾਗਤ ਨੂੰ ਕਿਵੇਂ ਘਟਾ ਸਕਦੇ ਹਾਂ। ਟੈਕਸਟ ਟ੍ਰਾਂਸਲੇਸ਼ਨ ਆਟੋਮੇਸ਼ਨ ਦੇ ਕਾਰਨ, ਅਸੀਂ ਦੇਖਿਆ ਕਿ ਮਨੁੱਖੀ ਅਨੁਵਾਦਕਾਂ ਦੇ ਹੱਥੀਂ ਕੰਮ ਨੂੰ ~ 75% ਤੋਂ 80% ਤੱਕ ਘਟਾ ਦਿੱਤਾ ਗਿਆ ਸੀ, ਉਹਨਾਂ ਦੀ ਉਤਪਾਦਕਤਾ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਵਾਧਾ ਹੋਇਆ ਸੀ। ਜਿਸ ਨੇ ਅੰਤ ਵਿੱਚ ਅਨੁਵਾਦ ਦੀ ਕੁੱਲ ਲਾਗਤ ਘਟਾ ਦਿੱਤੀ।

ਇਹਨਾਂ NMT ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਅਸੀਂ ਭਵਿੱਖ ਵਿੱਚ ਹੋਰ ਵੀ ਬਹੁਤ ਕੁਝ ਕਰ ਸਕਦੇ ਹਾਂ। ਅਸੀਂ KI-BERT[2] ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਇਹਨਾਂ NMT ਮਾਡਲਾਂ ਵਿੱਚ ਆਪਣੇ ਅੰਦਰੂਨੀ ਅਕਾਦਮਿਕ ਗਿਆਨ ਗ੍ਰਾਫ ਤੋਂ ਗਿਆਨ ਨੂੰ ਪ੍ਰੇਰਿਤ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹਾਂ। ਗਿਆਨ ਗ੍ਰਾਫਾਂ ਤੋਂ ਵਾਧੂ ਸੰਬੰਧਿਤ ਗਿਆਨ ਟ੍ਰਾਂਸਫਾਰਮਰ ਵਰਗੇ ਕਿਸੇ ਵੀ ਧਿਆਨ ਅਧਾਰਤ ਮਾਡਲ ਦੀ ਮਜ਼ਬੂਤੀ ਨੂੰ ਸੁਧਾਰ ਸਕਦਾ ਹੈ ਜਿਸਦੀ ਵਰਤੋਂ ਅਸੀਂ NMT ਮਾਡਲਾਂ [3][4] ਵਿੱਚ ਕਰਦੇ ਹਾਂ।

ਹਵਾਲੇ

[1] ਅਸ਼ੀਸ਼ ਵਾਸਵਾਨੀ, ਨੋਮ ਸ਼ਜ਼ੀਰ, ਨਿਕੀ ਪਰਮਾਰ, ਜੈਕਬ ਉਸਜ਼ਕੋਰੀਟ, ਲਿਓਨ ਜੋਨਸ, ਏਡਨ ਐਨ ਗੋਮੇਜ਼, ਲੁਕਾਸ ਕੈਸਰ, ਇਲੀਆ ਪੋਲੋਸੁਖਿਨ। “ਧਿਆਨ ਦੀ ਤੁਹਾਨੂੰ ਲੋੜ ਹੈ।”

[2] ਫਲਦੂ, ਕੀਯੂਰ, ਅਮਿਤ ਸ਼ੇਠ, ਪ੍ਰਸ਼ਾਂਤ ਕਿਕਾਨੀ, ਅਤੇ ਹੇਮਾਂਗ ਅਕਬਰੀ। “KI-BERT: ਬਿਹਤਰ ਭਾਸ਼ਾ ਅਤੇ ਡੋਮੇਨ ਸਮਝ ਲਈ ਗਿਆਨ ਸੰਦਰਭ ਨੂੰ ਭਰਨਾ।” arXiv ਪ੍ਰੀਪ੍ਰਿੰਟ arXiv:2104.08145 (2021)।

[3] ਗੌੜ, ਮਾਨਸ, ਕੀਯੂਰ ਫਲਦੂ, ਅਤੇ ਅਮਿਤ ਸੇਠ। “ਬਲੈਕ-ਬਾਕਸ ਦੇ ਅਰਥ ਵਿਗਿਆਨ: ਕੀ ਗਿਆਨ ਗ੍ਰਾਫ਼ ਡੂੰਘੇ ਲਰਨਿੰਗ  ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਵਧੇਰੇ ਵਿਆਖਿਆਯੋਗ ਅਤੇ ਵਿਆਖਿਆਯੋਗ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ?।” IEEE ਇੰਟਰਨੈਟ ਕੰਪਿਊਟਿੰਗ 25, ਨੰ. 1 (2021): 51-59

[4] ਸ਼ੇਠ, ਅਮਿਤ, ਮਾਨਸ ਗੌੜ, ਕੌਸ਼ਿਕ ਰਾਏ, ਅਤੇ ਕੀਯੂਰ ਫਲਦੂ। “ਸਮਝਾਉਣਯੋਗ AI ਲਈ ਗਿਆਨ-ਅਧੀਨ ਭਾਸ਼ਾ ਦੀ ਸਮਝ।” IEEE ਇੰਟਰਨੈਟ ਕੰਪਿਊਟਿੰਗ 25, ਨੰ. 5 (2021): 19-24.

[5] “#RAISE2020 – Embibe – ਵਿਅਕਤੀਗਤ ਸਿੱਖਿਆ ਲਈ AI-ਪਾਵਰਡ ਲਰਨਿੰਗ ਨਤੀਜੇ ਪਲੇਟਫਾਰਮ”, MyGov ਇੰਡੀਆ, ਅਕਤੂਬਰ 2020, https://www.youtube.com/watch?v=kuwFtHgN3qU

[6] ਫਾਲਦੂ, ਕੀਯੂਰ, ਅਦਿਤੀ ਅਵਸਥੀ, ਅਤੇ ਅਚਿੰਤ ਥਾਮਸ। “ਸਕੋਰ ਸੁਧਾਰ ਅਤੇ ਇਸਦੇ ਭਾਗਾਂ ਲਈ ਅਨੁਕੂਲ ਲਰਨਿੰਗ  ਮਸ਼ੀਨ।” ਯੂ.ਐੱਸ. ਪੇਟੈਂਟ 10,854,099, ਦਸੰਬਰ 1, 2020 ਨੂੰ ਜਾਰੀ ਕੀਤਾ ਗਿਆ।

[7] ਧਵਲਾ, ਸੋਮਾ, ਚਿਰਾਗ ਭਾਟੀਆ, ਜੋਏ ਬੋਸ, ਕੀਯੂਰ ਫਲਦੂ, ਅਤੇ ਅਦਿਤੀ ਅਵਸਥੀ। “ਡਾਇਗਨੌਸਟਿਕ ਅਸੈਸਮੈਂਟਸ ਅਤੇ ਉਹਨਾਂ ਦੀ ਗੁਣਵੱਤਾ ਦੇ ਮੁਲਾਂਕਣ ਦੀ ਆਟੋ ਜਨਰੇਸ਼ਨ.” ਇੰਟਰਨੈਸ਼ਨਲ ਐਜੂਕੇਸ਼ਨਲ ਡਾਟਾ ਮਾਈਨਿੰਗ ਸੁਸਾਇਟੀ (2020)।

[8] ਫਲਦੂ, ਕੀਯੂਰ, ਅਚਿੰਤ ਥਾਮਸ, ਅਤੇ ਅਦਿਤੀ ਅਵਸਥੀ। “ਪ੍ਰਸੰਗਿਕ ਗਿਆਨ ਅਧਾਰ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਵਿਅਕਤੀਗਤ ਸਮੱਗਰੀ ਦੀ ਸਿਫ਼ਾਰਿਸ਼ ਕਰਨ ਲਈ ਸਿਸਟਮ ਅਤੇ ਢੰਗ।” ਯੂ.ਐੱਸ. ਪੇਟੈਂਟ ਐਪਲੀਕੇਸ਼ਨ 16/586,512, ਅਕਤੂਬਰ 1, 2020 ਨੂੰ ਦਾਇਰ ਕੀਤੀ ਗਈ।

← AI ਹੋਮ 'ਤੇ ਵਾਪਸ ਜਾਓ