প্রশ্ন বৈষম্য ফ্যাক্টর

টেস্ট হল ছাত্রদের দ্বারা ব্যবহৃত তাদের কাঙ্খিত পঠনপাঠনের ফলাফল নির্ধারণের জন্য সবচেয়ে পছন্দের মূল্যায়ন পদ্ধতি। তাই, শিক্ষার্থীদের শেখার ফাঁকগুলি চিহ্নিত করতে এবং শিক্ষার্থীদের শেখার উন্নতির জন্য টেস্ট পদ্ধতিটি অবশ্যই সুষ্ঠু ও কার্যকর হতে হবে। একটি টেস্টের ক্ষমতা হল এই লক্ষ্যগুলি পূরণ করার জন্য টেস্টের প্রতিটি প্রশ্ন কতটা প্রাসঙ্গিক তার সমষ্টি। এইভাবে, আইটেম বিশ্লেষণের মাধ্যমে টেস্টের নির্ভরযোগ্যতা বাড়ানো যেতে পারে, যেখানে প্রতিটি প্রশ্ন বা আইটেমের জন্য শিক্ষার্থীদের প্রতিক্রিয়া টেস্টের কার্যকারিতা মূল্যায়নের জন্য ব্যবহার করা হয়। আইটেম বিশ্লেষণের একটি গুরুত্বপূর্ণ পদ্ধতি হল আইটেম বৈষম্য যা বিভিন্ন শিক্ষার্থীর মধ্যে পার্থক্য করার ক্ষেত্রে একটি প্রশ্নের শক্তিকে বোঝায়। প্রশ্ন বৈষম্য ফ্যাক্টর হল একটি সূচক যা পরিমাপ করে যে একটি প্রশ্ন কতটা ভালভাবে বিভিন্ন সমগোত্রীয় ব্যবহারকারীর মধ্যে পার্থক্য করতে পারে। এটি চিত্রিত করে যে কীভাবে শীর্ষ নম্বরপ্রাপ্তদের কম নম্বরপ্রাপ্তদের চেয়ে সঠিক প্রশ্ন পাওয়ার সম্ভাবনা বেশি।

প্রশ্ন বৈষম্য ফ্যাক্টর গণনা করার জন্য, Embibe প্রথাগত পরিসংখ্যান – আইটেম পয়েন্ট বাইসিরিয়াল কোরিলেশন এবং গভীর শিক্ষা-ভিত্তিক পদ্ধতি ব্যবহার করেছে। আইটেম পয়েন্ট বাইসিরিয়াল কোরিলেশন মূলত একটি কোশ্চেন স্কোর এবং একজন ছাত্রের মোট স্কোরের মধ্যে পিয়ারসন-পণ্য মুহূর্ত কোরিলেশন । সুতরাং যারা সঠিকভাবে প্রশ্নের উত্তর দিয়েছে এবং যারা প্রশ্নের ভুল উত্তর দিয়েছে তাদের মোট স্কোরের মধ্যে পার্থক্য যত বেশি হবে, প্রশ্ন বৈষম্য ফ্যাক্টরের মান তত বেশি হবে। আমরা ডিপ নিউরাল নেটওয়ার্ক কাঠামো ব্যবহার করে ঐতিহ্যবাহী আইটেম রেসপন্স থিওরির 2PL মডেলটিও বাস্তবায়ন করেছি। শিক্ষার্থীদের কর্মক্ষমতা তথ্যের বিষয়ে, আমরা প্রশিক্ষিত DNN-এর ওজন থেকে অসুবিধার মাত্রা এবং প্রশ্নের বৈষম্যের ফ্যাক্টর বের করে থাকি। এখানে একটি উদাহরণ দেওয়া হল কিভাবে প্রশ্ন বৈষম্যের স্কোর ছাত্রদের প্রশ্নের প্রয়াস আদানপ্রদানের মানের সাথে পরিবর্তিত হয়।

QDF = 0.11QDF = 0.80
প্রশ্ন 1:

কম আণবিক ওজনের অ্যালকোহল হল

ক. সমস্ত দ্রাবকগুলিতে দ্রবণীয় (সঠিক উত্তর)

খ. জলে দ্রবণীয়

গ. সব দ্রবনের মধ্যে অদ্রবণীয়

ঘ. গরম অবস্থায় জলে দ্রবণী
প্রশ্ন 2:

অ্যাসপিরিন যে নামে পরিচিত তা হল

ক. অ্যাসিটাইল স্যালিসিলিক অ্যাসিড (সঠিক উত্তর)

খ. মিথাইল স্যালিসিলিক অ্যাসিড

গ. অ্যাসিটাইল স্যালিসিলেট

ঘ. মিথাইল স্যালিসাইলে
সারণী 1: নিম্ন QDF এবং উচ্চ QDF মানগুলির সাথে সঠিক এবং ভুল প্রশ্নের জন্য মোট নম্বর বিতরণের মধ্যে তুলনা

এখানে, X-অক্ষ মোট স্কোর করা নম্বর এবং Y ছাত্রদের স্বাভাবিক সংখ্যার প্রতিনিধিত্ব করে। হলুদ রেখাটি নির্দেশ করে যে ছাত্ররা প্রশ্নটি ভুল বুঝেছিল তাদের মোট নম্বরের বন্টন। নীল রেখাটি নির্দেশ করে যে সমস্ত শিক্ষার্থী প্রশ্নগুলি সঠিক করেছে তাদের মোট নম্বরের বন্টন। প্রশ্ন 1-এ, সঠিক প্রশ্নের উত্তর দেওয়া শিক্ষার্থীদের মোট নম্বরের মধ্যে একটি বড় ওভারল্যাপ রয়েছে, যখন প্রশ্ন 2-এ ওভারল্যাপ খুবই কম, এবং তাই প্রশ্ন 2-এর প্রশ্ন বৈষম্যের মান প্রশ্ন 1-এর চেয়ে বেশি। শেষ প্রশ্নের বৈষম্য ফ্যাক্টর মান উপরে বর্ণিত পদ্ধতির সঠিক ফলাফল এবং টেস্টের ভিত্তি।

Embibe দুটি ভিন্ন টেস্টে শিক্ষার্থীদের কর্মক্ষমতা তুলনা করার জন্য একটি বৈধতা পরীক্ষা পরিচালনা করেছে:

1. ভিত্তিরেখা নীতি: এখানে, গ্রাউন্ড ট্রুথ ডাটাবেস থেকে প্রশ্নগুলি পক্ষপাত ছাড়াই নির্বাচন করা হয়েছে যা বৈষম্যমূলক ফ্যাক্টর এর অসুবিধা এবং সিলেবাস পরিসরের উপর প্রত্যাশিত বিতরণের গ্যারান্টি দেয়।

2. বৈষম্যভিত্তিক নীতি: এখানে, প্রশ্নগুলি গ্রাউন্ড ট্রুথ ডেটাসেট থেকে বাছাই করা হয়েছে, যা একটি পাঠ্যক্রমের পরিসর নিশ্চিত করে (প্রতিটি অধ্যায় থেকে অন্তত একটি প্রশ্ন), এবং প্রশ্নের সামগ্রিক অসমতা ফ্যাক্টরটি যেন যেকোন কঠিন স্তরে সর্বাধিক হয় তাও নিশ্চিত করে।

3. পরীক্ষার জন্য, 312 জন শিক্ষার্থীকে নির্বাচিত করা হয়েছিল যারা টেস্টে অংশ নেবে, যেখানে 75টি প্রশ্ন থাকবে। দুটি পরিসংখ্যান মেট্রিক্স এর দ্বারা টেস্টের কর্মক্ষমতার তুলনা করা হয়:

1. RMSE এর দ্বারা মূল্যায়ণ: আইটেম রেসপন্স থিওরি মডেল ব্যবহার করে, আমরা মূল্যায়ণ গ্রুপের প্রতিটি ছাত্রের সম্ভাব্যতা ভবিষ্যদ্বাণী করি এবং যদি তারা একটি তৈরী করা টেস্ট পেপার সমাধানের চেষ্টা করত তাহলে তাদের স্কোর এর গড় মান কত হত তা গণনা করি। আমরা আইটেম প্রতিক্রিয়া তত্ত্ব মডেল থেকে প্রতিটি ছাত্রের গ্রাউন্ড ট্রুথ ক্ষমতা নির্ধারণ করে থাকি। অবশেষে, আমরা সঠিকতার পরিমাপ পাওয়ার জন্য, গ্রাউন্ড ট্রুথ ক্ষমতা এবং আনুমানিক ক্ষমতার মধ্যে ভুলের মূল-গড়-বর্গ গণনা করি।

2.  স্পিয়ারম্যানের ρব্যবহার করে মূল্যায়ণ: এখানে আমরা গ্রাউন্ড ট্রুথ তথ্য শিক্ষার্থীর ক্ষমতা নির্ধারণ করি থেকে এবং টেস্ট তৈরি করি এবং দুটি র‍্যাঙ্কের মধ্যে র‌্যাঙ্ক কোরিলেশন ρ নির্ণয় করি।

নীতি
RMSERank corr ρ
ভিত্তিরেখা নীতি
0.844 0.59
বৈষম্যভিত্তিক নীতি
0.549 0.83
সারণি 2: RMSE এর তুলনা (আনুমানিক ক্ষমতা এবং গ্রাউন্ড ট্রুথ থেকে ক্ষমতা) এবং বিভিন্ন নীতি দ্বারা তৈরী করা টেস্টগুলিতে র‍্যাঙ্ক কোরিলেশন ρ

উপরন্তু, আমরা দেখেছি যে বৈষম্যভিত্তিক নীতি পরীক্ষার স্কোর বিতরণ (ছাত্রদের স্কোর 95%-5%) প্রাথমিক নীতি পরীক্ষার (24.8%) থেকে বেশি।

এইভাবে, টেস্টে উচ্চ প্রশ্ন বৈষম্যমূলক ফ্যাক্টর ব্যবহার করে শিক্ষার্থী যাদের একই উদ্দেশ্যমূলক শেখার লক্ষ্য রয়েছে তাদের মধ্যে বৈষম্য সৃষ্টি করার ক্ষমতার পরিপ্রেক্ষিতে টেস্টের মান উন্নত করা যেতে পারে। উপরন্তু, এগুলি বিষয়বস্তুর গুণমান উন্নত করতে ব্যবহার করা হয়, যেখানে আমরা নেতিবাচক বিষয়গুলির সাথে বৈষম্যমূলক ফ্যাক্টরগুলি চিহ্নিত করি, তাদের প্রাসঙ্গিকতা এবং স্পষ্টতা বাড়াতে চেষ্টা করি৷