টেস্ট হল ছাত্রদের দ্বারা ব্যবহৃত তাদের কাঙ্খিত পঠনপাঠনের ফলাফল নির্ধারণের জন্য সবচেয়ে পছন্দের মূল্যায়ন পদ্ধতি। তাই, শিক্ষার্থীদের শেখার ফাঁকগুলি চিহ্নিত করতে এবং শিক্ষার্থীদের শেখার উন্নতির জন্য টেস্ট পদ্ধতিটি অবশ্যই সুষ্ঠু ও কার্যকর হতে হবে। একটি টেস্টের ক্ষমতা হল এই লক্ষ্যগুলি পূরণ করার জন্য টেস্টের প্রতিটি প্রশ্ন কতটা প্রাসঙ্গিক তার সমষ্টি। এইভাবে, আইটেম বিশ্লেষণের মাধ্যমে টেস্টের নির্ভরযোগ্যতা বাড়ানো যেতে পারে, যেখানে প্রতিটি প্রশ্ন বা আইটেমের জন্য শিক্ষার্থীদের প্রতিক্রিয়া টেস্টের কার্যকারিতা মূল্যায়নের জন্য ব্যবহার করা হয়। আইটেম বিশ্লেষণের একটি গুরুত্বপূর্ণ পদ্ধতি হল আইটেম বৈষম্য যা বিভিন্ন শিক্ষার্থীর মধ্যে পার্থক্য করার ক্ষেত্রে একটি প্রশ্নের শক্তিকে বোঝায়। প্রশ্ন বৈষম্য ফ্যাক্টর হল একটি সূচক যা পরিমাপ করে যে একটি প্রশ্ন কতটা ভালভাবে বিভিন্ন সমগোত্রীয় ব্যবহারকারীর মধ্যে পার্থক্য করতে পারে। এটি চিত্রিত করে যে কীভাবে শীর্ষ নম্বরপ্রাপ্তদের কম নম্বরপ্রাপ্তদের চেয়ে সঠিক প্রশ্ন পাওয়ার সম্ভাবনা বেশি।
প্রশ্ন বৈষম্য ফ্যাক্টর গণনা করার জন্য, Embibe প্রথাগত পরিসংখ্যান – আইটেম পয়েন্ট বাইসিরিয়াল কোরিলেশন এবং গভীর শিক্ষা-ভিত্তিক পদ্ধতি ব্যবহার করেছে। আইটেম পয়েন্ট বাইসিরিয়াল কোরিলেশন মূলত একটি কোশ্চেন স্কোর এবং একজন ছাত্রের মোট স্কোরের মধ্যে পিয়ারসন-পণ্য মুহূর্ত কোরিলেশন । সুতরাং যারা সঠিকভাবে প্রশ্নের উত্তর দিয়েছে এবং যারা প্রশ্নের ভুল উত্তর দিয়েছে তাদের মোট স্কোরের মধ্যে পার্থক্য যত বেশি হবে, প্রশ্ন বৈষম্য ফ্যাক্টরের মান তত বেশি হবে। আমরা ডিপ নিউরাল নেটওয়ার্ক কাঠামো ব্যবহার করে ঐতিহ্যবাহী আইটেম রেসপন্স থিওরির 2PL মডেলটিও বাস্তবায়ন করেছি। শিক্ষার্থীদের কর্মক্ষমতা তথ্যের বিষয়ে, আমরা প্রশিক্ষিত DNN-এর ওজন থেকে অসুবিধার মাত্রা এবং প্রশ্নের বৈষম্যের ফ্যাক্টর বের করে থাকি। এখানে একটি উদাহরণ দেওয়া হল কিভাবে প্রশ্ন বৈষম্যের স্কোর ছাত্রদের প্রশ্নের প্রয়াস আদানপ্রদানের মানের সাথে পরিবর্তিত হয়।
QDF = 0.11 | QDF = 0.80 |
---|---|
প্রশ্ন 1: কম আণবিক ওজনের অ্যালকোহল হল ক. সমস্ত দ্রাবকগুলিতে দ্রবণীয় (সঠিক উত্তর) খ. জলে দ্রবণীয় গ. সব দ্রবনের মধ্যে অদ্রবণীয় ঘ. গরম অবস্থায় জলে দ্রবণী | প্রশ্ন 2: অ্যাসপিরিন যে নামে পরিচিত তা হল ক. অ্যাসিটাইল স্যালিসিলিক অ্যাসিড (সঠিক উত্তর) খ. মিথাইল স্যালিসিলিক অ্যাসিড গ. অ্যাসিটাইল স্যালিসিলেট ঘ. মিথাইল স্যালিসাইলে |
এখানে, X-অক্ষ মোট স্কোর করা নম্বর এবং Y ছাত্রদের স্বাভাবিক সংখ্যার প্রতিনিধিত্ব করে। হলুদ রেখাটি নির্দেশ করে যে ছাত্ররা প্রশ্নটি ভুল বুঝেছিল তাদের মোট নম্বরের বন্টন। নীল রেখাটি নির্দেশ করে যে সমস্ত শিক্ষার্থী প্রশ্নগুলি সঠিক করেছে তাদের মোট নম্বরের বন্টন। প্রশ্ন 1-এ, সঠিক প্রশ্নের উত্তর দেওয়া শিক্ষার্থীদের মোট নম্বরের মধ্যে একটি বড় ওভারল্যাপ রয়েছে, যখন প্রশ্ন 2-এ ওভারল্যাপ খুবই কম, এবং তাই প্রশ্ন 2-এর প্রশ্ন বৈষম্যের মান প্রশ্ন 1-এর চেয়ে বেশি। শেষ প্রশ্নের বৈষম্য ফ্যাক্টর মান উপরে বর্ণিত পদ্ধতির সঠিক ফলাফল এবং টেস্টের ভিত্তি।
Embibe দুটি ভিন্ন টেস্টে শিক্ষার্থীদের কর্মক্ষমতা তুলনা করার জন্য একটি বৈধতা পরীক্ষা পরিচালনা করেছে:
1. ভিত্তিরেখা নীতি: এখানে, গ্রাউন্ড ট্রুথ ডাটাবেস থেকে প্রশ্নগুলি পক্ষপাত ছাড়াই নির্বাচন করা হয়েছে যা বৈষম্যমূলক ফ্যাক্টর এর অসুবিধা এবং সিলেবাস পরিসরের উপর প্রত্যাশিত বিতরণের গ্যারান্টি দেয়।
2. বৈষম্যভিত্তিক নীতি: এখানে, প্রশ্নগুলি গ্রাউন্ড ট্রুথ ডেটাসেট থেকে বাছাই করা হয়েছে, যা একটি পাঠ্যক্রমের পরিসর নিশ্চিত করে (প্রতিটি অধ্যায় থেকে অন্তত একটি প্রশ্ন), এবং প্রশ্নের সামগ্রিক অসমতা ফ্যাক্টরটি যেন যেকোন কঠিন স্তরে সর্বাধিক হয় তাও নিশ্চিত করে।
3. পরীক্ষার জন্য, 312 জন শিক্ষার্থীকে নির্বাচিত করা হয়েছিল যারা টেস্টে অংশ নেবে, যেখানে 75টি প্রশ্ন থাকবে। দুটি পরিসংখ্যান মেট্রিক্স এর দ্বারা টেস্টের কর্মক্ষমতার তুলনা করা হয়:
1. RMSE এর দ্বারা মূল্যায়ণ: আইটেম রেসপন্স থিওরি মডেল ব্যবহার করে, আমরা মূল্যায়ণ গ্রুপের প্রতিটি ছাত্রের সম্ভাব্যতা ভবিষ্যদ্বাণী করি এবং যদি তারা একটি তৈরী করা টেস্ট পেপার সমাধানের চেষ্টা করত তাহলে তাদের স্কোর এর গড় মান কত হত তা গণনা করি। আমরা আইটেম প্রতিক্রিয়া তত্ত্ব মডেল থেকে প্রতিটি ছাত্রের গ্রাউন্ড ট্রুথ ক্ষমতা নির্ধারণ করে থাকি। অবশেষে, আমরা সঠিকতার পরিমাপ পাওয়ার জন্য, গ্রাউন্ড ট্রুথ ক্ষমতা এবং আনুমানিক ক্ষমতার মধ্যে ভুলের মূল-গড়-বর্গ গণনা করি।
2. স্পিয়ারম্যানের ρব্যবহার করে মূল্যায়ণ: এখানে আমরা গ্রাউন্ড ট্রুথ তথ্য শিক্ষার্থীর ক্ষমতা নির্ধারণ করি থেকে এবং টেস্ট তৈরি করি এবং দুটি র্যাঙ্কের মধ্যে র্যাঙ্ক কোরিলেশন ρ নির্ণয় করি।
নীতি | RMSE | Rank corr ρ |
---|---|---|
ভিত্তিরেখা নীতি | 0.844 | 0.59 |
বৈষম্যভিত্তিক নীতি | 0.549 | 0.83 |
উপরন্তু, আমরা দেখেছি যে বৈষম্যভিত্তিক নীতি পরীক্ষার স্কোর বিতরণ (ছাত্রদের স্কোর 95%-5%) প্রাথমিক নীতি পরীক্ষার (24.8%) থেকে বেশি।
এইভাবে, টেস্টে উচ্চ প্রশ্ন বৈষম্যমূলক ফ্যাক্টর ব্যবহার করে শিক্ষার্থী যাদের একই উদ্দেশ্যমূলক শেখার লক্ষ্য রয়েছে তাদের মধ্যে বৈষম্য সৃষ্টি করার ক্ষমতার পরিপ্রেক্ষিতে টেস্টের মান উন্নত করা যেতে পারে। উপরন্তু, এগুলি বিষয়বস্তুর গুণমান উন্নত করতে ব্যবহার করা হয়, যেখানে আমরা নেতিবাচক বিষয়গুলির সাথে বৈষম্যমূলক ফ্যাক্টরগুলি চিহ্নিত করি, তাদের প্রাসঙ্গিকতা এবং স্পষ্টতা বাড়াতে চেষ্টা করি৷