भाषांतर

Embibe हा मोठ्या प्रमाणावर लर्निंग आउटकम प्रदान करणारा AI प्लॅटफॉर्म आहे [5][6]. आम्ही कोणत्याही भाषेत शिकणाऱ्या जगभरातील सर्व विद्यार्थ्यांना मदत करण्यासाठी वचनबद्ध आहोत. भारतातील लाखो विद्यार्थ्यांना स्थानिक भाषेमध्ये शैक्षणिक सामग्री प्रदान करणे हे भाषांतर प्रोजेक्टचे लक्ष्य आहे. विद्यार्थ्यांना त्यांच्या शैक्षणिक काळात वैयक्तिकृत शिक्षण, प्रॅक्टिस आणि मूल्यांकन सामग्री मिळवून देण्यासाठी शैक्षणिक सामग्री निवडणे, तयार करणे किंवा भाषांतरीत करणे आवश्यक आहे [7][8].

उच्च-गुणवत्तेची शैक्षणिक सामग्री बहुधा इंग्रजी भाषेत उपलब्ध असते. जर आम्ही ही सामग्री आमच्या विद्यार्थ्यांना भारतीय स्थानिक भाषांमध्ये भाषांतरीत करून देऊ शकलो तर ही आनंदाची गोष्ट असेल. म्हणून, भारतातील सर्व मुख्य स्थानिक भाषांसाठी आम्ही इन-हाऊस NMT (न्यूरल मशीन ट्रान्सलेशन) मॉडेल्स तयार केले आहेत. प्रत्येक मॉडेलमध्ये इंग्रजी भाषेतील शैक्षणिक वाक्ये इनपुट म्हणून प्रदान केली जातील आणि प्रदान केलेल्या लक्ष्यित भाषेत भाषांतरीत वाक्ये आउटपुट म्हणून प्राप्त होतील.

सध्या, आम्ही पुढील 11 भारतीय भाषांसाठी सहाय्य प्रदान करतो,

१. हिंदी (hi)

2. गुजराती (gu)

3. मराठी (mr)

4. तामिळ (ta)

5. तेलुगु (te)

6. बंगाली (bn)

7. कन्नड (kn)

8. असामी (as)

9. ओरिया (or)

10. पंजाबी (pa)

10. मल्याळम(ml)

गुगल ट्रान्सलेशनमध्ये कधी-कधी चुका होतात कारण ते खासकरून शैक्षणिक क्षेत्रासाठी तयार केलेले नाही. येथे काही उदाहरणे दिली आहेत:

English	गूगल भाषांतर	NMT
which of the following law was given by Einstein:	खालीलपैकी कोणता कायदा आइन्स्टाईनने दिला होता	पूढीलपैकी कोणता नियम आइन्स्टाईनने दिला होता
which one of the following is not alkaline earth metal?	खालीलपैकी कोणता क्षारीय पृथ्वी धातू नाही?	खालीलपैकी कोणता अल्कधर्मी मृदा धातू नाही?
Endogenous antigens are produced by intra-cellular bacteria within a host cell.	अंतर्जात प्रतिजन हे यजमान सेलमधील इंट्रा-सेल्युलर बॅक्टेरियाद्वारे तयार केले जातात.	अंतर्जात प्रतिजन हे पूर्णावृत पेशीमधील आंतर पेशीय जिवाणूद्वारे तयार केले जातात.

दृष्टीकोन

आता, सुरुवातीपासून NMT मॉडेल तयार करण्यासाठी आम्हाला खूप मोठ्या प्रमाणात डेटाची (लाखो वाक्यांची) आवश्यकता आहे. म्हणून, आम्ही अभिप्राय लूप तयार केला आहे जो काळानुसार सुधारणा करत राहतो. यासाठी आम्ही सर्व भाषांमधील शैक्षणिक भाषांतराची मदत घेतली आहे.

आम्ही शैक्षणिक भाषांतर करणाऱ्याला मशीनद्वारे भाषांतरीत (NMT वापरून) वाक्ये प्रदान करतो आणि नंतर शैक्षणिक भाषांतराद्वारे प्राप्त झालेल्या अभिप्रायानुसार मॉडेल अपडेट करण्यासाठी अंतर्भूत केला जातो. यामुळे काळानुसार मशीनद्वारे भाषांतरीत वाक्यांची गुणवत्ता सुधारत जाईल हे सुनिश्चित केले जाते.

पुढील आकृती या संपूर्ण प्रोजेक्टची संपूर्ण संरचना दर्शवते.

त्यामुळे, आम्ही प्रदान केलेले भाषांतर “मानवी + AI” स्वरूपाचे आहे, ज्यामध्ये आम्ही दोन सर्वोत्तम गोष्टींची सांगड घातली आहे.

प्रतिमा-भाषांतर:

आम्ही प्रतिमा-भाषांतराची समस्या सोडवण्याचे देखील ठरवले आहे. जेव्हा इंग्रजी लेबल असलेली एखादी प्रतिमा दिली जाते तेव्हा त्याचा आउटपुट म्हणून लक्ष्यित भाषेमध्ये लेबल असलेली प्रतिमा प्रदान केली जाते.

उदाहरणार्थ, डाव्या बाजूला दिलेली इनपुट प्रतिमा

आपोआप उजव्या बाजूला दिलेल्या आऊटपुट प्रतिमेमध्ये बदलली जाईल.

आम्ही आउटपुट प्रतिमेच्या शीर्षस्थानी फॉन्टच्या स्टाईलमध्ये किरकोळ बदल करून तिला अधिक चांगले करू शकतो.

या प्रोजेक्टसाठी, प्रथम आम्ही प्रतिमेमधील लेबल शोधतो, नंतर प्रत्येक लिखित लेबलसाठी OCR करतो आणि नंतर NMT API वापरून त्यांचे भाषांतर करतो. नंतर हे भाषांतरीत लेबल प्रतिमेमध्ये योग्य ठिकाणी ठेवतो.

त्यामुळे, आपण पाहिले की, आम्ही गुणवत्तेच्या बाबतीत कोणतीही तडजोड न करता भाषांतराचा एकूण खर्च बऱ्याच प्रमाणात कसा कमी करू शकतो. तसेच आपण हे देखील पाहिले की मजकूर भाषांतर ऑटोमेशनमुळे मानवी भाषांतराचे काम ~75% ते 80% पर्यत कमी होते व त्यांची उत्पादकता लक्षणीयरीत्या वाढते.

NMT मॉडेल्सचे कार्य सुधारण्यासाठी आपण बरेच काही करू शकतो. आपण KI-BERT[2] वापरून या NMT मॉडेल्समध्ये अंतर्गत शैक्षणिक नॉलेज ग्राफमधून प्राप्त होणारे ज्ञान अंतर्भूत करू शकतो. नॉलेज ग्राफपासून प्राप्त होणारे अतिरिक्त संबंधित ज्ञान कोणत्याही लक्ष देण्यावर आधारित असलेल्या मॉडेलची गुणवत्ता सुधारू शकतो, जसे की NMT मॉडेल्समध्ये आपण वापरतो ते ट्रान्सफॉर्मर [3][4].

संर्दभ

[1] आशिष वासवानी, नोएम शाझीर, निकी परमार, जॅकोब उजकोरिट, लियॉन जोन्स, एडन एन. गोमेज, लुकास कैजर, इलिय पोलोसुखिन, “Attention Is All You Need.”

[2] फालदू, केयूर, अमित शेठ, प्रशांत किकाणी आणि हेमांग अकबरी. “KI-BERT: Infusing Knowledge Context for Better Language and Domain Understanding.” arXiv preprint arXiv:2104.08145 (2021).

[3] गौर, मानस, केयूर फालदू आणि अमित शेठ. “Semantics of the Black-Box: Can knowledge graphs help make deep learning systems more interpretable and explainable?.” IEEE Internet Computing 25, no. 1 (2021): 51-59

[4] शेठ, अमित, मानस गौर, कौशिक रॉय आणि केयूर फालदू. “Knowledge-intensive Language Understanding for Explainable AI.” IEEE Internet Computing 25, no. 5 (2021): 19-24.

[5] “#RAISE2020 – Embibe – AI-Powered learning outcomes platform for personalized education”, मायगव इंडिया. ऑक्टोबर 2020, https://www.youtube.com/watch?v=kuwFtHgN3qU

← AI होमवर परत जा

विनामूल्य अमर्यादित मॉक टेस्ट देण्यासाठी साइन अप करा

विनाशुल्क खाते बनवा

Enter OTP