ചോദ്യ വിവേചന ഘടകം

ലക്‌ഷ്യം വെച്ച പഠന ഫലങ്ങളിൽ നോടുന്നതിൽ തങ്ങളുടെ   പ്രകടനം അളക്കാൻ പഠിതാക്കൾ ഏറ്റവും കൂടുതൽ  ഉപയോഗിക്കുന്ന  മൂല്യനിർണ്ണയ രീതിയാണ് ടെസ്റ്റുകൾ. അതിനാൽ, വിദ്യാർത്ഥികളുടെ പഠനത്തിലെ കുറവുകൾ തിരിച്ചറിയുന്നതിനും പഠനം വർദ്ധിപ്പിക്കുന്നതിനും പരീക്ഷകൾ ന്യായവും ഫലപ്രദവുമായിരിക്കണം. ഈ ലക്ഷ്യങ്ങൾ കൈവരിക്കാനുള്ള ഒരു ടെസ്റ്റിൻ്റെ പ്രാപ്തി , ടെസ്റ്റിൻ്റെ ഓരോ ചോദ്യവും എത്രത്തോളം പ്രസക്തമാണ് എന്നതിൻ്റെ സംഗ്രഹമാണ്. അങ്ങനെ, ഓരോ ചോദ്യത്തിനും  ഐറ്റത്തിനും   ഉള്ള വിദ്യാർത്ഥികളുടെ പ്രതികരണങ്ങൾ ടെസ്റ്റ് പ്രകടനം വിലയിരുത്തുന്നതിന് ഉപയോഗിക്കുന്ന ഐറ്റ൦  വിശകലനം വഴി ഒരു ടെസ്റ്റിൻ്റെ വിശ്വാസ്യത വർദ്ധിപ്പിക്കാൻ കഴിയും. ഐറ്റ൦  വിശകലനത്തിലെ പ്രധാന രീതികളിലൊന്ന് ഐറ്റ൦  വിവേചനമാണ്, ഇത് വ്യത്യസ്ത പഠിതാക്കളെ വേർതിരിക്കുന്നതിലെ ഒരു ചോദ്യത്തിൻ്റെ പവറിനെ  സൂചിപ്പിക്കുന്നു. വ്യത്യസ്‌ത യൂസർ കോഹോർട്സുകളെ   ഒരു ചോദ്യത്തിന് എത്ര നന്നായി വേർതിരിക്കാനാകും എന്ന് അളക്കുന്ന ഒരു സൂചികയാണ് ചോദ്യ വിവേചന ഘടകം. കുറഞ്ഞ സ്കോർ ലഭിച്ചവരെ  അപേക്ഷിച്ച് മികച്ച സ്‌കോറർ ലഭിച്ചവർക്ക്  ഒരു ചോദ്യം ശരിയാക്കാൻ  സാധിക്കുമെന്ന്  ഇത് കാണിക്കുന്നു.

ചോദ്യങ്ങളുടെ  വിവേചന ഘടകം കണക്കാക്കാൻ, Embibe പരമ്പരാഗത സ്റ്റാറ്റിസ്റ്റിക്കൽ – ഐറ്റ൦ പോയിൻ്റ് ബൈസീരിയൽ കോറിലേഷനും ആഴത്തിലുള്ള പഠന-അടിസ്ഥാന രീതികളും ഉപയോഗിച്ചു. ഐറ്റം പോയിൻ്റ് ബൈസീരിയൽ കോറിലേഷൻ അടിസ്ഥാനപരമായി ഒരു വിദ്യാർത്ഥിയുടെ ചോദ്യ സ്‌കോറും മൊത്തം സ്‌കോറും തമ്മിലുള്ള പിയേഴ്‌സൺ-പ്രൊഡക്റ്റ് മൊമെൻ്റ് കോറിലേഷൻ ആണ്. അതിനാൽ, ചോദ്യം ശരിയാക്കിയ വിദ്യാർത്ഥികളുടെയും തെറ്റായി ലഭിച്ചവരുടെയും മൊത്തം സ്കോറുകൾ തമ്മിലുള്ള വ്യത്യാസം ഉയർന്നതായിരിക്കും.ചോദ്യം ശരിയാക്കിയ വിദ്യാർത്ഥികളുടെ ചോദ്യ വിവേചന ഘടകത്തിൻ്റെ മൂല്യം കൂടുതലായിരിക്കും. ഡീപ് ന്യൂറൽ നെറ്റ്‌വർക്ക് ആർക്കിടെക്ചർ ഉപയോഗിച്ച് ക്ലാസിക്കൽ ഐറ്റം റെസ്‌പോൺസ് തിയറിയിൽ നിന്നുള്ള 2PL മോഡലും ഞങ്ങൾ ഉപയോഗിക്കുന്നു . വിദ്യാർത്ഥികളുടെ അറ്റംപ്റ്റുകളുടെ  ഡാറ്റ കണക്കിലെടുക്കുമ്പോൾ, പരിശീലനം ലഭിച്ച DNN-ൻ്റെ വെയിറ്റിൽ  നിന്ന് ചോദ്യത്തിൻ്റെ ബുദ്ധിമുട്ട് നിലയും വിവേചന ഘടകവും ഞങ്ങൾ മനസ്സിലാക്കുന്നു. പഠിതാക്കളുടെ ചോദ്യോത്തര ഇടപെടലുകൾക്കൊപ്പം ചോദ്യ വിവേചന ഘടകത്തിൻ്റെ മൂല്യം എങ്ങനെ വ്യത്യാസപ്പെടുന്നു എന്നതിൻ്റെ ഒരു ഉദാഹരണം ഇതാ. 

QDF = 0.11QDF = 0.80
ചോദ്യം 1:കുറഞ്ഞ മോളിക്യുലാർ ഭാരമുള്ള ആൽക്കഹോളുകൾ,a. എല്ലാ ലായകങ്ങളിലും ലയിക്കുന്നതാണ് (ശരിയായ ഓപ്ഷൻ)b. ജലത്തിൽ ലയിക്കുന്നുc. എല്ലാ ലായകങ്ങളിലും ലയിക്കാത്തതാണ്d. ചൂടാക്കുമ്പോൾ ജലത്തിൽ ലയിക്കുന്നുചോദ്യം 2:ആസ്പിരിൻ ഇങ്ങനെയും അറിയപ്പെടുന്നുa. അസറ്റൈൽ സാലിസിലിക് ആസിഡ് (ശരിയായ ഓപ്ഷൻ)b. മീഥൈൽ സാലിസിലിക് ആസിഡ്c. അസറ്റൈൽ സാലിസിലേറ്റ്d. മീഥൈൽ സാലിസിലേറ്റ്
പട്ടിക 1: കുറഞ്ഞ QDF, ഉയർന്ന QDF മൂല്യങ്ങളുള്ള ശരിയായതും തെറ്റായതുമായ ചോദ്യങ്ങൾക്കുള്ള മൊത്തം മാർക്കുകളുടെ വിതരണം തമ്മിലുള്ള താരതമ്യം

ഇവിടെ, x-അക്ഷം സ്കോർ ചെയ്ത മൊത്തം മാർക്കിനെയും y-അക്ഷം സാധാരണ വിദ്യാർത്ഥികളുടെ എണ്ണത്തെയും പ്രതിനിധീകരിക്കുന്നു. ചോദ്യം തെറ്റായി ലഭിച്ച വിദ്യാർത്ഥികളുടെ മൊത്തം മാർക്കിൻ്റെ വിതരണത്തെ മഞ്ഞ വര സൂചിപ്പിക്കുന്നു. ചോദ്യം ശരിയാക്കിയ വിദ്യാർത്ഥികളുടെ മൊത്തം മാർക്കിൻ്റെ വിതരണത്തെ നീല വര സൂചിപ്പിക്കുന്നു. ചോദ്യം 1 ൽ, ചോദ്യം ശരിയാക്കിയ വിദ്യാർത്ഥികളുടെ മൊത്തം മാർക്ക് തമ്മിൽ ഉയർന്ന ഓവർലാപ്പ് ഉണ്ട്, അതേസമയം ചോദ്യം 2 ൽ ഓവർലാപ്പ് വളരെ കുറവാണ്, അതിനാൽ ചോദ്യ വിവേചന ഘടകത്തിൻ്റെ മൂല്യം ചോദ്യം 2 ന് ചോദ്യം 1 നേക്കാൾ കൂടുതലാണ്. അവസാന ചോദ്യ വിവേചന ഘടകം മൂല്യം മുകളിൽ പറഞ്ഞ രീതിയുടെയും ടെസ്റ്റ് പാരാമീറ്ററുകളുടെയും മികച്ച ഫലമാണ്.

രണ്ട് വ്യത്യസ്ത ടെസ്റ്റുകളിലെ വിദ്യാർത്ഥികളുടെ പ്രകടനം താരതമ്യം ചെയ്യാൻ Embibe ഒരു മൂല്യനിർണ്ണയ പരീക്ഷണം നടത്തി:

  1. ബേസ് ലൈൻ നയം: ഇവിടെ, ഗ്രൗണ്ട് ട്രൂത്ത്  ഡാറ്റാബേസിൽ നിന്നുള്ള വിവേചന ഘടകങ്ങൾ കാരണം പക്ഷപാതമില്ലാതെ ചോദ്യങ്ങൾ തിരഞ്ഞെടുക്കപ്പെടുന്നു, ബുദ്ധിമുട്ട് തലങ്ങളിലും സിലബസ് കവറേജിലും പ്രതീക്ഷിക്കുന്ന വിതരണം ഉറപ്പാക്കുന്നു.
  2. ഡിസ്ക്രിമിനേഷൻ ഒൺലി പോളിസി: ഇവിടെ, ഗ്രൗണ്ട് ട്രൂത്ത് ഡാറ്റാസെറ്റിൽ നിന്നാണ് ചോദ്യങ്ങൾ തിരഞ്ഞെടുക്കുന്നത്, സിലബസ് കവറേജ് ഉറപ്പാക്കുന്നു – ഓരോ അധ്യായത്തിൽ നിന്നും കുറഞ്ഞത് ഒരു ചോദ്യമെങ്കിലും, ഏത് ബുദ്ധിമുട്ടുള്ള തലത്തിലും ചോദ്യങ്ങളുടെ മൊത്തത്തിലുള്ള വിവേചന ഘടകം പരമാവധി വർദ്ധിപ്പിക്കുന്നുവെന്ന് ഉറപ്പാക്കുന്നു.

പരീക്ഷണത്തിനായി, 75 ചോദ്യങ്ങൾ അടങ്ങിയ ഒരു പരീക്ഷ എഴുതാൻ ആകെ 312 വിദ്യാർത്ഥികളെ തിരഞ്ഞെടുത്തു. രണ്ട് സ്റ്റാറ്റിസ്റ്റിക്കൽ മെട്രിക്കുകൾ ടെസ്റ്റിൻ്റെ പ്രകടനങ്ങളെ താരതമ്യം ചെയ്തു:

  1. RMSE ഉപയോഗിച്ചുള്ള മൂല്യനിർണ്ണയം: ഐറ്റം റെസ്‌പോൺസ് തിയറി മോഡൽ ഉപയോഗിച്ച്, ഓരോ വിദ്യാർത്ഥിയുടെയും ചോദ്യങ്ങൾക്ക് ശരിയായി ഉത്തരം നൽകുന്നതിനുള്ള മൂല്യനിർണ്ണയ സെറ്റിലെ സാധ്യത  ഞങ്ങൾ പ്രവചിക്കുകയും വിദ്യാർത്ഥികൾ സൃഷ്ടിച്ച ടെസ്റ്റ് പേപ്പറിൽ അവരുടെ സ്കോറുകളിൽ നിന്ന് ശരാശരി കഴിവ് കണക്കാക്കുകയും ചെയ്യുന്നു. ഐറ്റം റെസ്‌പോൺസ് തിയറി മോഡലിൽ നിന്ന് ഓരോ വിദ്യാർത്ഥിയുടെയും ഗ്രൗണ്ട് ട്രൂത്ത് എബിലിറ്റിയും  ഞങ്ങൾ നിർണ്ണയിക്കുന്നു. അവസാനമായി, ഗ്രൗണ്ട് ട്രൂത്ത്  എബിലിറ്റിക്കും കൃത്യത അളക്കാനുള്ള അനുമാനിക്കാവുന്ന എബിലിറ്റിക്കും ഇടയിലുള്ള റൂട്ട് മീൻ  സ്ക്വയർ പിശക് ഞങ്ങൾ കണക്കാക്കുന്നു.
  2. സ്പിയർമാൻ്റെ ρ ഉപയോഗിച്ചുള്ള മൂല്യനിർണ്ണയം: ഇവിടെ, ഗ്രൗണ്ട് ട്രൂത്ത്  ഡാറ്റയിൽ നിന്നും ജനറേറ്റഡ് ടെസ്റ്റിൽ നിന്നും ലഭിച്ച വിദ്യാർത്ഥികളുടെ കഴിവുകൾ ഞങ്ങൾ അടുക്കുകയും രണ്ട് റാങ്കുകൾ തമ്മിലുള്ള റാങ്ക് കോറിലേഷൻ ρ നിർണ്ണയിക്കുകയും ചെയ്യുന്നു.
നയംRMSERank corr ρ 
ബേസ് ലൈൻ നയം0.844 0.59 
ഡിസ്ക്രിമിനേഷൻ ഒൺലി പോളിസി0.549 0.83
പട്ടിക 2: വ്യത്യസ്‌ത നയങ്ങളാൽ സൃഷ്‌ടിക്കപ്പെട്ട ടെസ്റ്റുകളിലെ RMSE (അനുമാനിക്കപ്പെടുന്ന എബിലിറ്റിയും  ഗ്രൗണ്ട് ട്രൂത്ത് എബിലിറ്റിയും) റാങ്ക് കോറിലേഷൻ ρ എന്നിവയുടെ താരതമ്യം

കൂടാതെ, ബേസ്‌ലൈൻ പോളിസി ടെസ്‌റ്റിനേക്കാൾ 24.8% സ്‌കോറുകൾ (വിദ്യാർത്ഥികളുടെ 95-ാം ശതമാനം സ്‌കോർ – 5-ആം പെർസെൻറ്റൈലിൽ സ്‌കോർ) ഡിസ്ക്രിമിനേഷൻ ഒൺലി പോളിസി  നൽകുന്നതായി ഞങ്ങൾ കണ്ടെത്തി.

അതിനാൽ, ടെസ്റ്റുകളിൽ ഉയർന്ന ചോദ്യ വിവേചന ഘടകമുള്ള  ചോദ്യങ്ങളുടെ ഉപയോഗം, ഒരേ ലക്ഷ്യമുള്ള  പഠന ലക്ഷ്യങ്ങൾക്ക് കീഴിലുള്ള വിദ്യാർത്ഥികൾക്കിടയിൽ വേർതിരിച്ചറിയാനുള്ള പവറിൻ്റെ  അടിസ്ഥാനത്തിൽ ടെസ്റ്റിൻ്റെ ഗുണനിലവാരം മെച്ചപ്പെടുത്തുന്നു. കൂടാതെ, നെഗറ്റീവ് ചോദ്യ വിവേചന ഘടകമുള്ള ചോദ്യങ്ങൾ ഞങ്ങൾ തിരിച്ചറിയുകയും അവയുടെ പ്രസക്തിയും വ്യക്തതയും മെച്ചപ്പെടുത്തുകയും ഉള്ളടക്കത്തിൻ്റെ ഗുണനിലവാരം മെച്ചപ്പെടുത്തുന്നതിന് ഇവ പ്രയോജനപ്പെടുത്തുന്നു.

References

  • Soma Dhavala, Chirag Bhatia, Joy Bose, Keyur Faldu, Aditi Avasthi, “Auto Generation of Diagnostic Assessments and their Quality Evaluation,” July 2020, EDM.
  • Vincent LeBlanc, Michael A. A. Cox, “Interpretation of the point-biserial correlation coefficient in the context of a school examination,” January 2017, The Quantitative Methods for Psychology 13(1):46-56
  • Linden, W. D., and R. Hambleton. “Handbook of Modern Item Response Theory.” (1997), Biometrics 54:1680
  • Desai, Nishit, Keyur Faldu, Achint Thomas, and Aditi Avasthi. “System and method for generating an assessment paper and measuring the quality thereof.” U.S. Patent Application 16/684,434, filed October 1, 2020.
  • “Autogeneration of Diagnostic Test and Their Quality Evaluation – EDM:2020”, EDM 2020 presentation, Jul 2020, https://www.youtube.com/watch?v=7wZz0ckqWFs
  • Faldu, Keyur, Achint Thomas, and Aditi Avasthi. “System and method for behavioral analysis and recommendations.” U.S. Patent Application 16/586,525, filed October 1, 2020.