Een gesprek over beoordelen

We spraken af bij de Seterse Hoeve. De ouders van Frederieke wonen daar in de buurt en Sofie en David vonden het wel leuk om daar eens een kijkje te nemen. De Seterse Hoeve ligt aan een mooie beschaduwde weg. Het is een aardige plek om buiten op het terras wat te eten en dat willen we. We nemen de tijd, want we willen iets schrijven over evaluatie en daarbij vooral aandacht besteden aan de Cito toets. We hebben deze keer ook een collega van Sofie, Henk C. gevraagd. Hij interesseert zich voor evaluatie, maar evenals David zegt hij:

- ... dan moet het wel gaan om evalueren om te verbeteren ...

We zijn dus deze keer met z'n vieren. Het doel is om in ieder geval de opzet voor een hoofdstuk rond te hebben. Maar het moet wel een opzet zijn die is gebaseerd op eigen ervaring. Na de bestellingen brandt de discussie los. We hadden weliswaar een iPod bij ons om het gesprek op te nemen, maar we bespraken zo veel aspecten van evaluatie dat we daar een boek mee zouden kunnen vullen. Omdat er veel over evaluatie wordt geschreven vinden we dat we het hier zo beknopt mogelijk moeten doen.

David: Laten we eerst eens alle vier vertellen wat we onder evaluatie verstaan. Maar dan zo dat een leraar of lerares basisonderwijs daar wat aan heeft.

Henk: Beoordelen betekent letterlijk dat je een oordeel geeft. Een leerling heeft iets gedaan of gemaakt en jij beoordeelt dat. Je probeert dat te doen aan de hand van heldere criteria en je geeft je oordeel naar eer en geweten. Er zijn leraren die beoordelen op basis van een indruk. Dat gebeurt gelukkig veel minder omdat de indruk van de ene leraar of lerares niet die van de ander is.

Frederieke: Beoordelen is volgens mij een waardeoordeel toekennen. Je hecht een bepaalde waarde aan iets en daarom geef je een oordeel. Om dat goed te kunnen moet je helder voor ogen hebben op grond waarvan je je oordeel toekent.

Sofie: Beoordelen is volgens mij dat je, op basis van duidelijke onderwijsdoelen, vaststelt hoe ver de leerling is gekomen. Beoordelen is niet: aanstrepen met rood potlood en evenmin cijfers geven. Dat zijn handelingen die weliswaar vaak met beoordelen worden geassocieerd, maar daar in feite niets mee te maken hebben.

David: Beoordelen is volgens mij een prestatie van een leerling in een rangorde van alle prestaties van je leerlingen of studenten plaatsen. En daaraan consequenties verbinden voor je leerlingen, namelijk welke hun volgende taken zullen zijn.

We discussiëren verder over beoordelen en constateren dat er daaraan in onderwijssituaties criteria moeten worden gekoppeld, namelijk:

- heldere criteria: een leerling(e) wiens/wier werk wordt beoordeeld moet weten op grond waarvan dat gebeurt, de leraar/lerares moet dat uiteraard ook weten;

- heldere normen: duidelijk moet wezen, bij elk criterium waar de grens ligt tussen voldoende en onvoldoende;

- precisie: de beoordeling moet precies zijn en niet maar ‘zo’n beetje’ of lukraak of op basis van een indruk;

- betrouwbaar: de beoordeling moet morgen dezelfde zijn als gisteren;

- inter-persoonlijk: de beoordeling moet bij de ene leraar dezelfde zijn als bij de andere, en bij de ene leerling dezelfde zijn als bij de andere.


Zo komen we tot een vijftal criteria tot Frederieke zegt:

- Ik sprak met een enkele leraressen van de basisschool over de Cito toets. Die is tegenwoordig op de school waar ik nu hospiteer (en tijdelijk inval) verplicht . Ze zijn het daarmee niet eens omdat een Cito toets maar een beperkt beeld geeft. Wat weten jullie van die toets? En ze kijkt het kringetje rond. Henk heeft veel ervaring met het maken van toetsen, weten David en Sofie en dus kijken ze hem aan.

- Jullie kijken naar mij, zegt Henk, jullie verwachten van mij dus een antwoord? Ik kan wel kort uiteenzetten waarom ik die toets belangrijk vind en waarvan ik vind wat er aan ontbreekt. Het belangrijkste tekort vind ik dat het een eindtoets is. Eenmaal een eindscore vastgesteld kan er niets meer veranderen, terwijl, om te kunnen ‘evalueren om te verbeteren’ juist niet de toetsscore per leerling bekeken zou moeten worden, maar men zou moeten nagaan waar lacunes zitten zodat de leraar heel gericht en individueel les kan geven. Dat is met een eindtoets als de Cito toets niet mogelijk. Dat kan natuurlijk wel met tussentoetsen.

De anderen luisteren met belangstelling. Sofie en David weten ook het een en ander over toetsen, maar vinden het ook prettig om door een deskundige te worden voorgelicht.

- Kijk, zegt Henk. Die toets meet uitsluitend meetbare, dat wil zeggen afvraagbare kennis. Dat klinkt als een open deur, maar dat is nu eenmaal zo. Het is goed om te weten wat die toets niet meet.

Dat zijn onder andere creativiteit, sociale interactie en doorzettingsvermogen, denk daarbij aan het houden van presentaties, creatief taalgebruik, deelnemen aan kringgesprekken en dergelijke. Je kunt dat wel meten, maar niet met de Cito toets die officieel eindtoets basisonderwijs heet.

De Cito toets en soortgelijke toetsen meten wat een leerling weet en begrijpt, dat noemen we ‘afvraagbare kennis’. Dat zijn geen simpele weetjes, dat kan heel ver, ook om het meten van inzicht gaan. Maar weer niet zo ver dat het een intelligentietest wordt. Die toets bestaat uit 200 opgaven en moet echt betrekking hebben op wat leerlingen op de basisschool geleerd hebben. Om te voorkomen dat de Cito toets als een intelligentietest wordt beschouwd wordt de uitslag gegeven in een schaal van 501 tot 550. Daarmee voorkom je ook dat de uitslag beschouwd wordt als een schoolcijfer. Die toets is heel belangrijk. Voor de leerling omdat er een schooladvies voortgezet onderwijs aan wordt gekoppeld en voor de school en de ouders om te zien hoe er per leerling, per groep, per leraar en als geheel wordt gepresteerd.

- Ik heb een vraag, zegt Frederieke, je hebt het over meten. Wat is dat voor meten. Het is iets anders dan de lengte van deze tafel meten.

- Ja natuurlijk zegt Henk. Je meet op een andere manier. Ik kan daar wel even op ingaan, hij kijkt David en Sofie vragend aan, maar die vinden het al lang best.

- Het lijkt zo simpel, maar zodra je over meten gaat nadenken wordt het spannend. Technici kunnen veel meten. Ze meten de lengte van iets in meters. Ze meten het oppervlak in hectares en afstanden in kilometers. We zijn er aan gewend om dit meten te noemen en we hebben daarvoor gestandaardiseerde maten. Dat geldt ook voor de natuurkunde. Technici meten de stroomsterkte, de spanning en de weerstand van een elektrische stroom en kennen door de wet van Ohm ook de verhouding tussen die grootheden. I is e gedeeld door r. De stroomsterkte is de spanning gedeeld door de weerstand. Heel belangrijk om te weten bij het ontwerpen van elektrische installaties. Enfin, zo zijn ze in staat om nog veel meer te meten: versnelling, kracht, energie, volume, druk, golflente, noem maar op. In het onderwijs willen we ook graag meten, maar daar zijn de grootheden waarin we kunnen meten veel minder exact of helemaal niet exact. Het begrip meten wordt in het onderwijs daarom veel ruimer gebruikt. Ik geef een voorbeeld. Een leraar geeft voor een opstel een 7, ruim voldoende dus. Maar waarop is die 7 gebaseerd? Heldere criteria zijn hier heel moeilijk voor te geven. Er zijn bij het beoordelen van opstellen wel scoringsvoorschriften, maar omdat die toch geïnterpreteerd moeten worden, laten we in situaties waar het er echt op aan komt, bij examens, opstellen door ten minste twee onafhankelijke beoordelaars -- d.w.z. dat zij elkaar niet kennen -- nakijken. Het meten in onderwijssituaties is dus subjectief, in de techniek objectief.

- Maar men zegt dat de Cito-toets een objectieve toets is, merkt Frederieke op.

- Dat objectieve zit in de manier waarop de antwoorden op de vragen worden beoordeeld. Dat kan door een computer en die doet dat altijd op dezelfde manier en dat noemt men in dit geval objectief, maar dat heeft consequenties voor het type vragen dat je stelt. Je moet je vragen daarop aanpassen en daarom werkt men met meerkeuze vragen. Er wordt een vraag gesteld of een probleem beschreven en daaronder staan het juiste of beste antwoord plus een aantal afleiders. Meestal kan een leerling kiezen uit vier mogelijkheden. Maar dat is een conventie. Je kunt ook laten kiezen uit twee of tien mogelijkheden. Als je uit twee mogelijkheden kunt kiezen dan heb je 50% kans dat je goed gokt, uit vier 25% en uit tien 10%. Het kan dus zijn dat je door gokken bij het invullen van meerkeuze vragen een heel eind komt. De kunst voor de toetsconstructeur is om er voor te zorgen dat dit niet kan. De leerling moet het echt weten of begrijpen om het goede antwoord aan te kunnen strepen.

- Bij beoordelen moeten er heldere criteria zijn. Nou, voor de schooltoetsen basisonderwijs geldt dit. Het gaat om wat de leerling in de school hebben geleerd en daarover zijn landelijk afspraken gemaakt.

De toets moet de schoolvakken goed representeren, of weergeven zou je ook kunnen zeggen. Als ik het uit mijn hoofd zeg dan ziet de toets er als volgt uit (maar voor de exacte cijfers kun je misschien eens kijken op de website van het Cito).

Voor taal bestaat de eindtoets uit ongeveer 100 items: invullen van teksten, spelling, begrijpend lezen en woordenschat. Voor studievaardigheden zo'n 40: kaartlezen, studieteksten, informatiebronnen en lezen van schema's en 60 items voor rekenen/wiskunde. Voor wereldoriëntatie neemt men ook een aantal items op verdeeld over aardrijkskunde, geschiedenis en natuurkunde, per kennisgebied zo'n 25 tot 40.

Heldere normen? Die zijn er, maar niet altijd. Wat de ene school voor voortgezet onderwijs een voldoende score noemt, bij voorbeeld 540, is voor een andere school niet voldoende, die willen bijvoorbeeld 545 als grens. Maar verheldering is wel mogelijk als zij hun norm bekend maken. Ouders weten dan waar ze aan toe zijn.

Precisie? Ja, de uitslag is heel precies. We weten precies van elk kind hoe de prestaties liggen. Niet alleen van het totaal, maar ook op deelgebieden als rekenen/wiskunde, taal en algemene kennis. Ook de school krijgt die gegevens en ze kunnen daarmee hun onderwijs verbeteren.

Betrouwbaar? Ja, het toetsresultaat is morgen niet anders dan vandaag. Overigens wordt de toets over enkele dagen gespreid. Een leerling kan de ene dag wat beter presteren dan de andere. Een ander betrouwbaarheidsprobleem is of alle onderwerpen wel aan de orde komen, dekt de toets wel alle zaken die in het onderwijs aan de orde kwamen? Daarom bestaat de Cito-toets uit veel, circa 200, kleine vragen. De kans dat je onderwerpen laat liggen is dan klein. En verder geeft men leerlingen ruim de tijd om de toets te maken, die tijd is ook landelijk afgesproken.

Inter-persoonlijk? Ja. Een toetsresultaat wordt door de ene machine net zo nagekeken als door een andere.

Henk zwijgt. Hij kijkt het kringetje rond. Dit is toch wel heel simpel, vindt hij. Sofie zegt:

- Bij die heldere normen heb ik vraag. Stel dat een school heel veel aanmeldingen krijgt van leerlingen met laten we zeggen score 545. Te veel leerlingen om te plaatsen. Dan verhogen ze toch de norm?

- Ja, dat gebeurt, zegt Henk.

- Een ander probleem lijkt mij het handhaven van de norm over de jaren heen. Hoe weet je dat de toets van dit jaar even moeilijk of gemakkelijk is als die van vorig jaar?

- Elk jaar bestaat de Cito-toets uit nieuwe opgaven. Het handhaven van de norm probeert men op te lossen door twee maal een proefafname van de toets waarbij men kijkt of de spreiding van de antwoorden ongeveer hetzelfde is als de jaren daarvoor en door het aanwijzen van kernitems, d.w.z. items die volgens experts van gelijke moeilijkheidsgraad zijn als die van vorige jaren. Er zijn dus wel kleine variaties mogelijk.

Misschien is het handig te weten dat er in de loop van de jaren technische gegevens beschikbaar zijn gekomen over toetsen. Ik denk daarbij aan p- en a-waarden. De p-waarde van een item moet groot zijn van een item dat experts (vakdeskundigen) als gemakkelijk beschouwen. Als een p-waarde in de buurt van 0,25 komt is dat een slecht teken, want onder degenen die het juiste alternatief hebben gekozen zijn er die dat op goed geluk deden. Bij raden heb je namelijk een kans van 0,25. Als de p-waarde gelijk is aan 1 hebben alle leerlingen het antwoord goed, dat kan a) omdat het item te makkelijk is en b) dat het onderwijsdoel bereikt is bij alle leerlingen. Zo worden ook de drie a-waarden van items berekend, dat zijn de waarden die de drie afleiders scoren. Is een a-waarde groter of even groot als de p-waarde dan is deze afleider niet goed geformuleerd. Zo'n item moet je veranderen.

- Het mooie van dit soort zaken vind ik dat je heel veel kunt berekenen om goede toetsen te construeren. Een probleem daarbij vind ik dat je door die statistische bewerkingen de aansluiting met de gebruikers verliest, zegt Sofie.

- Inderdaad, dat kan een probleem zijn, maar voor technische zaken zou ik verwijzen naar de website van het Cito. Je kunt het Cito ook vragen stellen. Er is een website van kennisnet.nl waar je goede gegevens vindt over toetsen en wikipedia levert gegevens.

- Er zijn tegenwoordig leerlingvolgsystemen die ook mogelijkheden hebben om leerlingen toetsen te laten maken. Dat is aan de ene kant een goede zaak, maar het is ook jammer, zegt David. Toen ik leraar was maakte ik zelf meerkeuze toetsen. Dat was wel veel werk, maar het was iets van mijzelf. Ik kreeg een mooi beeld van wat mijn studenten bij mij presteerden.

- Je moet het contact met je leerlingen en ook met je vak niet verliezen door alles uit te besteden, zegt Frederieke. Je kunt volgens mij, per school, of voor de organisatie of stichting waar je school bij hoort, een itembank samenstellen. Elke lerares levert haar bijdrage en iedereen kan ervan gebruik maken. Op die manier krijgt je de beschikking over goede vragen, het behoeven namelijk niet allemaal vier-keuze items te zijn. Volgens mij is dat het beste en levert het een bijdrage aan je professionaliteit.

En met deze verstandige woorden nemen wij afscheid van de vier onderwijsmensen. Het lijkt wel een verhaal van Maarten Toonder, want nog lang spraken ze gezellig over allerlei onderwerpen en later wandelden ze geanimeerd pratend over de hei. Wat een welbestede middag!