Afgelopen week publiceerde de volkskrant de schoolcijferlijst. Op basis van onderzoek van Jaap Dronkers en zijn groep worden in die lijst cijfers toegekend aan scholen. Zo’n lijst geeft altijd gedoe. De vraag is altijd of ranglijsten van scholen überhaupt een goed idee zijn en of zo’n lijst wel meet wat hij pretendeert te meten. Achter scores zit altijd een model waarmee de score totstandkomt. Om een antwoord op de tweede vraag te krijgen is het goed dit model te onderzoeken. Dat doe ik hier, op basis van Dronkers’ beschrijving die hier te downloaden is (PDF).
Alleen cijfers tellen.
De waardering die Dronkers toekent aan de scholen hangt alleen van de cijfers af die leerlingen op hun examen behalen, althans dat is de enige maat die Dronkers gebruikt voor de waardering van de opbrengst van de school. Hij houdt wel rekening met de „instroom” van de school, bij de beoordeling daarvan, en kijkt kijkt in lichte mate naar het rendement (zeg het aantal leerlingen dat zonder zittenblijven slaagt) maar uiteindelijk zijn de examencijfers de gulden maat. Zelf zegt hij daarover:
„In wezen zijn loopbaanoriëntatie, zorg, leerlingenbegeleiding en de kwaliteit van docenten vooral middelen om het doel te bereiken en geen kwaliteitsindicatoren. Wie deze indicatoren interpreteert als kwaliteitsmaten, verwart doelen en middelen.” (pagina 1).
Ik ben dat niet met hem eens. Met deze bewering lijkt Dronkers te zeggen dat het enige doel van een school is om zoveel mogelijk leerlingen met zo hoog mogelijke cijfers te laten slagen. Dat is belangrijk, maar niet het enige doel van een school. Een school is vormend. Een goede leraar is er niet alleen op gericht dat leerlingen goede cijfers voor zijn of haar vak halen, maar maakt ook de interesse in dat vak wakker en enthousiasmeert. Of een leerling goed is in bepaalde aspecten van een vak is te meten op een examen. Of die leerling enthousiast is voor een vak en heeft nagedacht of dat vak iets is voor zijn of haar toekomst wordt daarin niet gemeten maar is wel een belangrijke opbrengst. Daarnaast zijn er sociale vaardigheden, organisatievaardigheden en meer, die gezien kunnen worden als een opbrengst van de school. Dat zijn niet alleen middelen om het doel van de hogere cijfers te bereiken, het zijn echte opbrengsten van een school.
De focus op cijfers is een keuze van Dronkers. Bij de interpretatie van zijn resultaten moet je daarmee rekening houden.
Vooral onvoldoendes tellen
Nu komen we op de details van het model. Je zou denken dat een simpele maat het gemiddelde eindexamencijfer is – eventueel gescheiden per vak. Dronkers kiest daar niet voor: hij berekent voor iedere school het aantal vakken waarvan het gemiddelde cijfer op het centraal schriftelijk van de geslaagde kandidaten onvoldoende is, dat wil zeggen lager dan 5.899. Daarbij kent hij een zwaarder gewicht toe aan de kernvakken: Nederlands, Engels en Wiskunde. Het resultaat is een cijfer tussen 4 en 8: een vier voor scholen die meer dan drie vakken onvoldoende scoren, een 8 voor scholen met geen enkel vak onvoldoende. Het cijfer wordt lager als de onvoldoende vakken ook nog eens kernvakken zijn. Het volgende tabelletje, overgenomen van de site schoolcijferlijst.nl, laat deze cijfertoekenning zien:

Het model van Dronkers is dus zeer gevoelig voor cijfers die rond de grens van 5,899 liggen. En omdat gemiddelde examencijfers rond de 6,5 liggen is de kans dat vakken door het ijs zakken vrij groot. Het verschil tussen 5,8 en 5,9 voor een vak kan een heel punt schelen in het model van Dronkers. In sommige gevallen zelfs twee. Belangrijk om hiervan te onthouden is dat, ook al gebruikt Dronkers „schoolcijfers” op de schaal van 1 tot 10, het niet zo is dat dat betekent dat een 8 twee keer zo goed is als een 4. De cijfers vormen geen nette continue schaal, een 6- of 7,3 zijn niet mogelijk. Dronkers deelt wel halve bonuspunten uit, zoals hieronder beschreven.
De „toegevoegde waarde”
Hierna gaat Dronkers bonuspunten toekennen voor twee dingen: de „toegevoegde waarde” en het verschil tussen Schoolexamen en Centraal examen. Maximaal kunnen scholen twee bonuspunten verdienen of twee minpunten krijgen. Voor de „toegevoegde waarde” kijkt Dronkers naar het „bovenbouwrendement”, een score gebaseerd op de cijfers voor schoolexamen en centraal examen, percentage gezakten en het percentage leerlingen dat zonder vertraging het eindexamen haalt. Dat rendement relateert Dronkers aan factoren die mogelijkerwijs het resultaat beïnvloeden: het basisschooladvies, de sociaal-economische status van de ouders, of de leerlingen uit een armoedegebied komen (op basis van postcode). Hij berekent een model dat het rendement „voorspelt”. Vervolgens berekent hij voor iedere school het verschil tussen deze voorspelling en noemt dat de „Toegevoegde Waarde”. Daarvan maakt hij een ranglijst. Als je bij de bovenste 10% van die ranglijst hoort krijg je een bonuspunt, de scholen die daar niet bijhoren maar wel in de bovenste 20% staan krijgen een halve bonuspunt. Aan de onderkant van de lijst krijg je minpunten: de laagste 10% krijgt een hele punt aftrek, de 10% daarboven een halve.
Er is kritiek mogelijk op deze aanpak: weer is het zo dat een klein verschil in score op de „Toegevoegde Waarde” een halve punt kan schelen op de Dronkers-schaal. Daarnaast is het zo dat het model van Dronkers voor de relatie tussen de invoer van de school en het bovenbouwrendement grote onzekerheid bevat. Een aantal factoren draagt wel significant bij, maar een groot gedeelte van de verschillen in bovenbouwrendement wordt niet verklaard door de meegenomen factoren. Daardoor speelt toeval een grote rol in de bepaling of een school wel of niet een bonus- of minpunt krijgt toebedeeld.
Het verschil tussen CE en SE
Het eindcijfer van een leerling bestaat voor veel (niet alle) vakken uit het gemiddelde van het schoolexamen, dat de school zelf afneemt, en het centraal examen, dat wordt gemaakt door het CITO. Vaak ligt het schoolexamencijfer wat hoger dan het cijfer van het centraal schriftelijk. Een school met een groot verschil laadt de verdenking op zich te makkelijke examens te geven waarmee de resultaten van de leerlingen worden opgepoetst. De inspectie vindt dat beide cijfers met niet meer dan een half punt mogen verschillen. Nu kun je daarover van mening verschillen. Bijvoorbeeld wordt bij Engels spreek- en schrijfvaardigheid in het schoolexamen getoetst en leesvaardigheid en tekstbegrip in het centraal schriftelijk. Scores op die vaardigheden zouden best verschillend kunnen zijn. Dronkers pikt het advies van de inspectie op en telt per school het aantal vakken waarvoor het verschil groter is dan 0,5. En ook hier past hij de 10% truc toe: de 10% scholen met de meeste vakken met verschil krijgen een punt aftrek, de scholen met de minste vakken met een verschil krijgen er een punt bij. Het is hierbij merkwaardig dat de grootte van het verschil verder geen rol speelt. Een verschil van 0.51 wordt net zo zwaar bestraft als een verschil van 2.
Alles bij elkaar levert dit een score op tussen de 2 en 10. Niet toevallig lijkt dit op een schoolcijfer, maar het is het niet. Waar een 10 doorgaans betekent dat alles goed is, is het hier een afspiegeling van een combinatie van het aantal onvoldoendes en de plaats op twee ranglijsten, waar hierboven wat kanttekeningen zijn geplaatst. Het is maar de vraag of een school met een 10 in werkelijkheid echt veel verschilt van een school met een 4.
De vraag is nu natuurlijk of de scores van Dronkers iets zeggen over de kwaliteit van de scholen. Ten eerste: kwaliteit is volgens Dronkers gelijk aan examencijfers. Dat is een keuze. Als je die keuze accepteert is er nog veel aan te merken. Het rekenen met rapportcijfers in plaats van de examencijfers zelf en het systeem van bonuspunten maakt het geheel niet helder. Scores zijn in bepaalde gevallen gevoelig voor kleine verschillen en ander verschillen (de absolute hoogte van examencijfers) worden juist niet meegenomen. Een groot verschil in Dronkers-score hoeft niet te staan voor een groot verschil in cijfers. Zo is het verschil in gemiddeld cijfer tussen de hoogste VWO-school (met een 10) en de laagste (met een 2,5) 1,3 punt. Een belangrijk verschil, maar de vraag is of het een verschil tussen een 2,5 en een 10 rechtvaardigt is de vraag. Dat verklaart ook dat de scores van jaar tot jaar fors kunnen verschillen zoals Dick van der Wateren in zijn blog constateert. Overigens was ook het systeem waarmee de scores vorig jaar bepaald werden anders. Een school zakte van een 9 naar een 3.5.
Alles bij elkaar nemend vind ik de functie van deze ranglijst twijfelachtig. De relatie tussen cijfer en examencijfers is arbitrair. En het feit dat alleen cijfers en niet andere vormen van opbrengst worden meegenomen is discutabel. De vraag is of een score gebaseerd op deze methode de opwinding en de discussie die het uitbrengen van de lijst genereert waard is. Ranglijsten zijn sowieso niet zo nuttig, scholen hebben meer aan een genuanceerd beeld van de ontwikkeling van hun leerlingen, tijdens en na hun schoolcarriere. Daarbij zijn cijfers belangrijk maar niet het enige aspect waar op gelet moet worden.
Update: Ik attendeerde Jaap Dronkers op deze blogpost en hij schreef een reactie. Die is hier te lezen.