Over p-, a- en Rit waarden
Wanneer je een toets gemaakt hebt ben je nog niet klaar! Een digitale toets met automatisch nagekeken antwoorden genereert in veel software automatisch managementinformatie over de toets en de items. Door naar de analyses van je toets te kijken kun je als docent zien of je toets verbeterd kan worden. Sander Schenk heeft het in dit verband over de inhoudelijke en de getalsmatige of psychometrische analyse. Over deze laatste analyse wil ik het hebben in deze blogpost.
Stel je hebt digitaal getoetst en daarmee snel de beschikking over de p-, a- en Rit waarden wat dan? Om te weten wat de analyse betekent is het belangrijk dat je weet wat de software aan gegevens oplevert. De p-waarde is het percentage van de kandidaten die deze vraag goed beantwoord hebben. Dat wil zeggen dat een hoge p-waarde op een relatief eenvoudige vraag wijst voor deze groep kandidaten: ze hebben immers bijna allemaal de vraag goed. Te moeilijke en te makkelijke vragen zijn niet wenselijk in een toets. Te makkelijke vragen leveren geen bijdrage aan een toets en daarnaast leiden ze de goede leerling af. De leerling denkt dat het zo eenvoudig niet kan zijn. Voor een item is p-waarde tussen 0,3 en 0,8 optimaal.
De a-waarde verwijst naar de afleider en geeft het percentage van de kandidaten wat voor deze afleider gekozen heeft. Door een afleideranalyse te doen zie je meestal erg snel dat meerkeuze vragen slechts drie antwoordalternatieven hoeven te hebben. Bij meer dan twee afleiders (een afleider plus het goede antwoord zijn drie keuzealternatieven) zie je vaak dat enkele afleiders helemaal niet gekozen worden. De vraag is dan waarom je die (niet gekozen) alternatieven zal aanbieden.
De Rit-waarde is het moeilijkst. Deze laat zien hoe hoe het item verschil maakt tussen mensen met hoge scores op de toets en mensen met lage scores op de toets. De Rit waarde geeft het onderscheidend vermogen van het item aan. De Rit waarde geeft aan hoe goed het item afzonderlijk, hetzelfde meet als de toets in het geheel. Oftewel hoe goed het betreffende item in de toets past.
Wanneer de p-waarde en de Rit waarde tegen elkaar uitgezet worden in een grafiek is overzichtelijk te zien welke items kritisch beoordeeld moeten worden. De items in de rode vlakken moeten in ieder geval onder de loep genomen worden. Verder valt hier op dat er wel erg veel makkelijke items zijn (hoge p-waarden). De norm voor een acceptabele Rit waarde varieert. In de literatuur wordt over het algemeen de volgende normering aangehouden:
0.40 en hoger zeer goed
0.30 – 0.39 goed
0.20 – 0.29 twijfelachtig
0.19 en lager slecht
Kortom veel cijfermatig materiaal om je toetsvragen nog eens te bekijken. De toetsafname is geen eindpunt maar juist een startpunt om aan kwaliteitsverbetering te werken.