ভূমিকা:
Embibe-এর জ্ঞান গ্রাফ হল একটি পাঠ্যক্রম-অজ্ঞেয়বাদী বহুমাত্রিক গ্রাফ যা 75,000 টিরও বেশি নোডের সমন্বয়ে গঠিত হয়, যা প্রতিটি শিক্ষাগত জ্ঞানের পৃথক এককের প্রতিনিধিত্ব করে, যাকে ধারণাও বলা হয়, এবং তাদের মধ্যে একশো হাজারের বেশি আন্তঃসংযোগ এটি দেখায় যে ধারণাগুলি স্বাধীন নয় বরং তারা অন্যান্য ধারণার ওপর নির্ভরশীল।
Embibe-এর বিষয়বস্তু প্রসারিত হওয়ার সাথে সাথে জ্ঞানের গ্রাফ ক্রমাগত বিকশিত হতে থাকে। ঐতিহাসিকভাবে, এটি গ্রাফের কিছু অংশগুলিকে নিরাময় করার জন্য বুদ্ধিমান স্বয়ংক্রিয়তার পাশাপাশি বিশেষজ্ঞদের প্রচেষ্টাগুলিকে ব্যবহার করে থাকে। তবে, Embibe গ্রাফে স্বয়ংক্রিয়ভাবে নতুন নোডগুলি আবিষ্কার করতে এবং শিক্ষাগত জ্ঞান বর্ণালীকে আরও বেশি প্রসারিত করতে এখন গবেষণায় বিনিয়োগ করছে। একাডেমিকালি ডিফারেনশিয়েটেড ফ্রেজ এক্সট্রাক্টার আমাদের একটি লেবেলযুক্ত ডেটাসেট এবং একটি BERT-ভিত্তিক মডেল ব্যবহার করে জ্ঞান গ্রাফে নতুন নোডগুলি আবিষ্কার করতে সাহায্য করে এবং আমাদের সেই ফ্রেজগুলি এবং ফ্রেজগুলির প্রাসঙ্গিকতার মাত্রা সম্পর্কে জানায়।
একাডেমিকালি ডিফারেনশিয়েটেড ফ্রেজ এক্সট্রাক্টার:
একাডেমিকালি ডিফারেনশিয়েটেড ফ্রেজ এক্সট্রাক্টার (এডিপিই) হল একটি একাডেমিক বই থেকে পাঠ্যের গুরুত্বপূর্ণ ব্যাপ্তির একটি স্বয়ংক্রিয় আন্ডারলাইন করা অংশবিশেষ, যা বই পড়ার সময় একজন শিক্ষার্থী কীভাবে গুরুত্বপূর্ণ ধারণাগুলিকে আন্ডারলাইন করে তার অনুরূপ। এর মূল উদ্দেশ্য হল অসংগঠিত পাঠ্য থেকে বিষয়বস্তুকে এক্সট্রাক্সন করা যখন এটা অনুমান করে নেওয়া হয় যে বেশিরভাগ বিষয়গুলি বইয়ের পাঠ্যের অংশ হিসাবে খুঁজে পাওয়া যেতে পারে।
কি-ফ্রেজ এক্সট্রাক্সন এবং নেমড এনটিটি রেকগনিশন এর ওপর এখানে বিস্তারিত কাজ হয়েছে। তবে, একাডেমিক বই থেকে বিষয়বস্তুর স্বয়ংক্রিয় এক্সট্রাক্সন একটি কঠিন কাজ যার উপর খুব সীমিত পরিসরে কাজ হয়েছে। সংজ্ঞা অনুসারে, বিষয়বস্তুর এক্সট্রাক্সন খুবই পরিশ্রম সাপেক্ষ যেখানে একটি অধ্যায়ের অনুক্রমবর্তী সমস্ত বিষয়বস্তু এক্সট্রাক্সন করতে হবে এবং অধ্যায়ের পরিপ্রেক্ষিতে তাদের সহাবস্থান এবং প্রাসঙ্গিকতা বর্ণনা করতে হবে। এটি নেমড এনটিটি এক্সট্রাক্সন থেকে আলাদা কারণ পরেরটি পূর্ব-নির্দিষ্ট শ্রেণীভুক্ত (যেমন: স্থান, ব্যক্তি, অরগ) স্বতন্ত্র দৃষ্টান্তগুলিকে সাধারণভাবে সংক্ষিপ্ত পাঠ্যগুলি থেকে এক্সট্রাক্সন করার উপর দৃষ্টি নিবদ্ধ করে, যেখানে বাক্যগুলি একটি শব্দানুক্রমিক শ্রেণিবিন্যাস গঠন করে না যা আসলে আমাদের অনন্য, পরস্পর সম্পর্কিত বিষয়বস্তু এক্সট্রাক্সনের লক্ষ্যের বিপরীত।। এখানে চিরাচরিত মেশিন লার্নিং এবং ডিপ লার্নিং-ভিত্তিক নিয়ন্ত্রিত/অনিয়ন্ত্রিত কৌশলগুলি ব্যবহার করে টাস্ক প্রণয়ণের দ্বারা তত্ত্ব-ভিত্তিক বিষয়বস্তু এক্সট্রাক্সনের পন্থা উপস্থাপন করা হয়েছে।
গবেষণা পদ্ধতি:
আমাদের পরীক্ষাগুলি দুটি প্রাথমিক শ্রেণীবিন্যাস প্রণয়নের মাধ্যমে ADPE ডেটাসেটের কর্মক্ষমতা উন্নত করার জন্য অত্যাধুনিক ডিপ লার্নিং কৌশলগুলিকে কাজে লাগায়, যেমন BERT (বাইডাইরেকশনাল এনকোডার রিপ্রেজেন্টেশনস ফ্রম ট্রান্সফরমার্স), LSTM (লং শর্ট টার্ম মেমরি), এবং CNNs (কনভোলিউশনাল নিউরাল নেটওয়ার্ক)। একটি হল নেমড এনটিটির জন্য ক্রম ট্যাগিং, এবং দ্বিতীয়টি হল পরিসংখ্যানগত, শব্দার্থিক, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (Natural language processing), পাঠ্য বৈশিষ্ট্য এবং ডিপ নিউরাল নেটওয়ার্ক পদ্ধতি ব্যবহার করে n-গ্রাম ক্যানডিডেট তৈরী করার জন্য n-গ্রাম শ্রেণীবিভাগের ব্যবহার।
আমরা শব্দভান্ডার বাড়াতে BERT আনকেসড মডেল ব্যবহার করি এবং এটিকে বৈজ্ঞানিক জার্নাল এবং বইয়ের অধ্যায়ে নিপুনভাবে নথিবদ্ধ করি। উপরন্তু, ইনপুট টেক্সট থেকে বিষয়বস্তু খুঁজে পেতে সমস্ত এনকোডার স্তরের উপস্থাপনাগুলিতে কনস্ট্রেইনড-ট্রান্সিশন(বায়ো এনকোডিং) CRF (কন্ডিশনাল র্যান্ডম ফিল্ড) যুক্ত করা হয়েছে।
কেন CRF (কন্ডিশনাল র্যান্ডম ফিল্ড):
● CRF অনুক্রমের লগ সম্ভাবনা (লগলাইকলিহুড) সর্বাধিক করে এবং অনুক্রম ট্যাগের সর্বোচ্চ সম্ভাবনা অনুমান করে।
● CRF সীমাবদ্ধতা নিশ্চিত করে যে লেবেল এনকোডিং দ্বারা নিযুক্ত হিসাবে শুধুমাত্র বৈধ মাল্টিগ্রাম সিকোয়েন্স লেবেল তৈরি করা হয়েছে – (যেমন বায়ো এনকোডিং একটি ক্রমানুসারে এনটিটি বিভাজনের গ্যারান্টি দেয় তবে কিছু ব্যাকরণ নিয়ম রয়েছে যা অবশ্যই পূরণ করতে হবে)
● CRF অনুক্রমিক লগ সম্ভাবনা (লগলাইকলিহুড) ক্ষতি হিসাবে ব্যবহৃত হয় যা সাধারণ রৈখিক স্তরের থেকে নেটওয়ার্কের আউটপুট লগিটগুলিকে আরও ভালো অপ্টিমাইজ করে (যদি নিথর বা আনফ্রোজেন থাকে)। এই বিষয়টি সাধারণ রৈখিক স্তরের আউটপুটের সাথে CRF যুক্ত রৈখিক স্তরের আউটপুটের তুলনা করে সহজেই নিশ্চিত করা যায়।
সারসংক্ষেপ:
জ্ঞান গ্রাফ সমস্ত Embibe পণ্যের মেরুদণ্ড। অতএব, জ্ঞান গ্রাফের উন্নতি আমাদের শীর্ষ অগ্রাধিকার। এই কাজটি আমাদের জ্ঞানের গ্রাফ বজায় রাখতে এবং ন্যূনতম হস্তক্ষেপের মাধ্যমে এটিকে দ্রুত প্রসারিত করতে সহায়তা করে।
এই অনুশীলনে, মডেলটিকে BERT এর সাথে প্রশিক্ষিত করা হয় এবং অন্যান্য তথ্য প্রক্রিয়াকরণ, মডেলিং এবং বৈধতা কৌশল ব্যবহার করা হয়। বৈজ্ঞানিকভাবে পার্থক্যযুক্ত ফ্রেজ এক্সট্র্যাক্টরগুলিকে গুরুত্বপূর্ণ একাডেমিক শব্দগুলিকে মূল একাডেমিক পাঠ্য থেকে আন্ডারলাইন করতে ব্যবহৃত হয় এবং তাই আমরা বিভিন্ন উত্সের প্রদত্ত পাঠ্য ডেটা থেকে বিষয়বস্তু খুঁজে বার করার প্রক্রিয়াটিকে স্বয়ংক্রিয় করেছি।