अनुवाद

किसी एक भाषा में कही गई बात को किसी अन्य भाषा में कहना या लिखना ‘अनुवाद’ कहलाता है। अनुवाद परियोजना का लक्ष्य भारत के लाखों छात्रों को उनकी स्थानीय भाषाओं में शैक्षिक सामग्री प्रदान करना है।

अधिकांश उच्च गुणवत्ता वाली शैक्षणिक सामग्री अंग्रेजी भाषा में उपलब्ध होती है। यदि हम इन सामग्रियों का भारत की स्थानीय भाषाओं में अनुवाद कर लें तो यह छात्रों के लिए बहुत ही मददगार होगा। ऐसा करने के लिए, हमने भारत की सभी प्रमुख स्थानीय भाषाओं के लिए इन-हाउस न्यूरल मशीन अनुवाद मॉडल बनाए हैं। प्रत्येक मॉडल इनपुट के रूप में अंग्रेजी भाषा के अकादमिक वाक्य को प्राप्त करेगा और लक्षित स्थानीय भाषा में अनुवादित वाक्यों का आउटपुट देगा।

वर्तमान में, हम निम्नलिखित 11 भारतीय भाषाओं में शैक्षिक अनुवाद कार्य कर रहे हैं:

  1. हिंदी
  2. गुजराती
  3. मराठी
  4. तमिल
  5. तेलुगू
  6. बंगाली
  7. कन्नड़
  8. असमिया
  9. उड़िया
  10. पंजाबी
  11. मलयालम

Google अनुवाद कभी-कभी गलतियाँ करता है क्योंकि यह विशेष रूप से अकादमिक कार्यक्षेत्र के लिए नहीं बनाया गया है। यहाँ कुछ उदाहरण दिए गए हैं:

अंग्रेज़ी वाक्यGoogle अनुवादNMT अनुवाद
which of the following law was given by Einstein:निम्नलिखित में से कौन सा कानून आइंस्टीन द्वारा दिया गया था:निम्नलिखित में से कौन सा नियम आइंस्टीन द्वारा दिया गया था:
which one of the following is not alkaline earth metal?निम्नलिखित में से कौन क्षारीय पृथ्वी धातु नहीं हैनिम्नलिखित में से कौन सा क्षारीय मृदा धातु नहीं है?
Endogenous antigens are produced by intra-cellular bacteria within a host cell.अंतर्जात प्रतिजन एक मेजबान कोशिका के भीतर इंट्रा-सेलुलर बैक्टीरिया द्वारा निर्मित होते हैं।अंतर्जात प्रतिजन एक परपोषी कोशिका के भीतर अंत: कोशिकीय जीवाणु द्वारा उत्पन्न किए जाते हैं।

दृष्टिकोण

अब, न्यूरल मशीन अनुवाद मॉडल को शुरुआत से बनाने के लिए, हमें बहुत सारे डेटा की आवश्यकता होती है – कम से कम कुछ मिलियन वाक्यों की आवश्यकता पड़ती है। इसलिए, हमने एक फीडबैक लूप बनाया है जिसमें समय के साथ सुधार होता रहता है। हमने इसके लिए सभी भाषाओं के अकादमिक अनुवादकों की मदद ली है।

हम अकादमिक अनुवादकों को मशीनी अनुवादित वाक्य प्रदान करते हैं। यदि आवश्यक हो तो वे मामूली सुधार करते हैं और हमें सही अनुवाद यानी फीडबैक डेटा प्रदान करते हैं। फिर हम अपने मॉडल को इस नए फीडबैक डेटा के साथ प्रशिक्षित करते हैं। अब, अपडेटेड  न्यूरल मशीन अनुवाद मॉडल के साथ, मशीन-अनुवादित वाक्यों की गुणवत्ता पिछली बार की तुलना में बेहतर हो जाती है।

यहाँ एक आरेख दिया है जो संपूर्ण परियोजना की समग्र संरचना को दर्शाता है।

इस प्रकार, अनुवाद की समस्या को हल करने के लिए, हम मानव बुद्धिमता और कृत्रिम बुद्धिमता दोनों का लाभ उठाते हैं।

Embibe की न्यूरल मशीन अनुवाद तकनीक का उपयोग करके, अकादमिक अनुवादकों द्वारा हाथ से किए जाने वाले कार्य को ~80% तक कम कर दिया गया है। उनकी उत्पादकता कई गुना बढ़ गई है। साथ ही अनुवाद की लागत भी काफी कम हो गई है।

चित्र का अनुवाद

हम चित्र के अनुवाद की समस्या को भी हल करने का प्रयास कर रहे हैं, जहाँ अंग्रेजी लेबल वाले एक चित्र को सिस्टम में फीड  किया जाएगा तब चयनित लक्ष्य भाषा में अनुवादित चित्र प्राप्त होगा।

उदाहरण के लिए, यह इनपुट चित्र:

स्वचालित रूप से नीचे दिए गए आउटपुट चित्र के रूप में परिवर्तित हो जाएगा:

हम इसे और बेहतर बनाने के लिए इस आउटपुट चित्र के शीर्ष पर छोटे-मोटे फ़ॉन्ट-स्टाइल अपडेट कर सकते हैं।

इस प्रोजेक्ट के लिए, हम पहले चित्र से टेक्स्ट लेबल का पता लगाते हैं, फिर प्रत्येक टेक्स्ट लेबल के लिए ओसीआर करते हैं, फिर न्यूरल मशीन अनुवाद एपीआई का उपयोग करके उनका अनुवाद करते हैं, और अंत में उस अनुवादित टेक्स्ट को संबंधित स्थान पर लगा देते हैं।

संदर्भ:

[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. “Attention Is All You Need.”

[2] Faldu, Keyur, Amit Sheth, Prashant Kikani, and Hemang Akabari. “KI-BERT: Infusing Knowledge Context for Better Language and Domain Understanding.” arXiv preprint arXiv:2104.08145 (2021).

[3] Gaur, Manas, Keyur Faldu, and Amit Sheth. “Semantics of the Black-Box: Can knowledge graphs help make deep learning systems more interpretable and explainable?.” IEEE Internet Computing 25, no. 1 (2021): 51-59

[4] Sheth, Amit, Manas Gaur, Kaushik Roy, and Keyur Faldu. “Knowledge-intensive Language Understanding for Explainable AI.” IEEE Internet Computing 25, no. 5 (2021): 19-24.

← AI होम पर वापस जाएं