Primer – Toetsen en Beoordelen

Docenten in het Hoger Onderwijs moeten zowel onderwijzen als toetsen. Toetsen is een complexe bezigheid. Voor veel docenten is het vaak onduidelijk wat de basisprincipes voor toetsen zijn en onduidelijk welke toetsvormen er zijn.

In het onderwijs is sprake van formatieve toetsen en van summatieve toetsing.

Formatieve toetsing Summatieve toetsing
Formatieve toetsing heeft als doel om diagnostische gegevens te verzamelen over de beheersing van een bepaald construct door de student en om op basis daarvan feedback te geven zodat de student zichzelf kanverbeteren (zgn. feed forward) of de docent het onderwijs aan kan passen. Summatieve toetsing heeft als doen om meting te doen ten aanzien van de beheersing van een bepaald construct door de student. Meestal betreft het een af te sluiten onderwijsonderdeel dat als construct wordt beschouwd. Op basis daarvan kan worden nagegaan of een student voldoende beheersing laat zien en of de student al of niet geslaagd is op basis van een zak/slaaggrens ofwel cesuur. Het is van groot belang dat de toetsen betrouwbaar zijn zodat studenten niet onterecht zakken/slagen.

Construct
Toetsen proberen een uitspraak mogelijk te maken in welke mate de student een bepaald construct beheerst. Deze term is met opzet abstracter geformuleerd dan bijvoorbeeld ‘de stof’, ‘de vaardigheid’ of ‘de competentie’. Bij toetsen over het algemeen sprake is van een niet direct observeerbare grootheid die alleen op basis van een aantal indirecte observaties gemeten kan worden.

Klassieke Test Theorie (KTT)
Bij toetsen wordt er vanuit gegaan dat de geobserveerde score van een student op een toets is opgebouwd uit de ware score en ruis (error, afwijkingen). Het doel van de Klassieke Test Theorie is om deze grootheden te kwantificeren

Betrouwbaarheid
Een belangrijk uitgangspunt voor summatieve toetsen is dat de score op een toets zo min mogelijk afhankelijk is van het toeval, ruis e.d. De groep studenten die onterecht een bepaalde score op een meting krijgt dient minimaal te zijn. Daarvoor dient de betrouwbaarheid voldoende, cq zo groot mogelijk te zijn. KTT maakt het mogelijk deze waarde te berekenen. Er zijn meerdere methoden voor, maar het meest bekend zijn de test-hertest betrouwbaarheidKR-20 en Cronbach Alpha. Voor tentamens wordt algemeen gezien dat waarden van meer dan 0.8 noodzakelijk zijn. In de praktijk van het Hoger Onderwijs worden vaak slechts waarden tussen 0.6 en 0.7 gehaald.

Validiteit
Een ander belangrijk uitgangspunt voor toetsing is dat de toetsen meten wat beoogd wordt te meten. Dit betekent dat er een duidelijke omschrijving dient te zijn van de doelen van het onderwijs en dat de gekozen toetsvorm (of combinatie van toetsen) daarmee in overeenstemming is. Dat leidt tot een aantal afgeleide validiteitsvragen. Een belangrijke daarvoor is representativiteit; zijn alle doelen cq. inhouden op de juiste wijze aanwezig in de toets (vaak: dekking van de stof). Voor belangrijke doelen worden meer toetsvragen opgenomen zodat er een betrouwbaardere meting kan worden gedaan over dat deel.

Item-Test correlaties
De Item-Tets correlatie (Rit) is de correlatie tussen de score van de populatie studenten op een specifieke vraag uit een toets (een item) en de totaalscore van de groep studenten op de totale toets. Lage waarden (of zelfs negatieve waarden) zijn toetstechnisch problematisch. Ze zijn een indicatie dat bijvoorbeeld sommige stof niet (goed) is behandeld, dat een vraag niet eenduidig is geformuleerd of dat er een sleutelfout is (verkeerde antwoord wordt correct gerekend). De Item-Rest correlatie is vergelijkbaar met de Item-Test correlatie. Het verschil is dat bij de de Item-Rest correlatie in de totaalscore op de toets, niet de score op de betreffende vraag zelf wordt meegerekend. Hiermee wordt een zuiverdere waarde nagestreefd.