Modellenwerk deel 2 – Scientific literacy

Dit is deel 2 van mijn oratieblog, de – bewerkte – tekst van mijn oratie die ik op 18 mei uitsprak. In het eerste deel introduceerde ik de vraag waarom en waartoe we eigenlijk aan beta-onderwijs doen. In dit tweede deel een begin van een antwoord: het is onderdeel van onze geletterdheid, datgene waarmee wij structuur aanbrengen in onze wereld, net als literatuur en kunst dat kunnen doen. En een belangrijk onderdeel daarvan bestaat uit modellen. DIt was mijn tekst:

Als we de vergelijking met het vak Engels en de andere talen nog even doortrekken lenen we hiervan het woord geletterdheid of literacy. In de context van talen gaat dit begrip verder dan de basisvaardigheden voor lezen en schrijven, het omvat ook het op een goede manier kunnen omgaan met informatie en inhoud van het geschreven en gesproken woord. Geletterdheid impliceert ook een bepaalde mate van eruditie.  In het geval van geletterdheid in relatie met natuurwetenschap spreken we van scientific literacy. Niet voor niets is deze term gekozen als centraal begrip in het onderzoeksprogramma van het Freudenthal Instituut. Net zoals geletterdheid het doel is van talenonderwijs, variërend van elementaire lees- en schrijfvaardigheid, via het gebruik van de taal in praktische situaties tot begrip en waardering van literatuur en cultuur is wetenschappelijke geletterdheid het doel van onderwijs in wiskunde en natuurwetenschappen.

Research program FI

Scientific literacy is geen nieuwe term. In een toonaangevend artikel beschreef George de Boer (2000) de ontwikkeling van het begrip sinds de jaren 50 van de twintigste eeuw. Een van de eerste zinnen van zijn artikel luidt: “Although it is widely claimed to be a desired outcome of science education, not everyone agrees what that means.” Deze zin is natuurlijk een goed uitgangspunt om het begrip als uitgangspunt te nemen voor een onderzoeksprogramma. Het is dus nodig het begrip voor onze context beter te kunnen definiëren.

In het onderzoeksprogramma van het FI, dat ik in het afgelopen jaar samen met mijn collega’s heb opgesteld identificeren we drie niveaus van kennis, vaardigheden en houdingen die onderdeel zijn van scientific and mathematical literacy (Boerwinkel, Veugelers, & Waarlo, 2009):

  • Kennis en vaardigheden met betrekking tot concepten in wiskunde en natuurwetenschap;
  • Kennis over de aard van wetenschap (Nature of Science), inclusief de methoden en grondslagen van die wetenschappen;
  • Inzichten en houdingen over normen en waarden gerelateerd aan wetenschap, zowel persoonlijk als maatschappelijk.

Ik hoorde laatst iemand zich afvragen wat een timmerman met wetenschap moet. En inderdaad, het Higgs-deeltje hoeft hem niet te interesseren. Maar iedereen van VMBO tot VWO wordt ooit geconfronteerd met vragen waarbij wetenschappelijke kennis, en het waarderen daarvan, een belangrijke rol speelt. Dat zijn vragen als: “waarom moet ik mijn kind vaccineren en is dat gevaarlijk?”, “is er gevaar bij genetisch gemanipuleerde organismes?” en “wat betekenen de voorspellingen over het klimaat?”. Bij al deze vragen is het van belang om kennis van pseudokennis te kunnen onderscheiden, zeker in een tijd waarin ongefilterde informatie ons van alle kanten belaagt. Inzichten in de waarde van die kennis en de relatie met eigen en gedeelde normen en waarden kunnen helpen bij het afwegen van risico’s en het stellen van grenzen, bijvoorbeeld in ethische kwesties. Dit is samen te vatten onder de term “wetenschappelijk burgerschap”.

We moeten bij het verwerven van inzicht in dit aspect wel rekening houden met het niveau en de keuzes van de leerling. Een leerling die zijn schoolopleiding vervolgt met een opleiding in natuurwetenschap en techniek moeten we anders voorbereiden dan een leerling die een maatschappijprofiel kiest of een vmbo-leerling met een profiel in uiterlijke verzorging. Allen hebben inzicht nodig in de rol van wetenschappelijke kennis, aard en niveau daarvan kunnen verschillen. Daarbij wil ik meteen opmerken dat we in onderzoek naar bèta-didaktiek veel te weinig aandacht hebben voor vmbo – tenslotte de plek waar meer dan de helft van onze leerlingen terecht komt. Ik zie voor het Freudenthal Instituut een taak om het programma in wetenschap en techniek voor vmbo te ontwerpen vanuit het gezichtspunt van haar leerlingen, en niet vanuit de disciplines zoals ze op vwo en universiteit worden gedoceerd.

Een belangrijk onderdeel van die wetenschappelijke geletterdheid is inzicht in de vraag hoe wetenschap werkt en wat je daarvan zou moeten weten.

Bij het ontwikkelen van inzicht in normen en waarden rond wetenschap is inzicht in de Nature of Science, het tweede aspect van scientific literacy belangrijk. Om de waarde van kennis te kunnen beoordelen is inzicht in de wijze waarop die kennis tot stand komt, en wat degenen dreef die die kennis voor het eerst verwierven van grote waarde. Door te weten dat wetenschappelijke kennis wordt opgebouwd via onderzoek met alle zekerheden en onzekerheden die daarbij horen weet je ook wat die kennis waard is. Dan komt er inzicht in het feit dat de evolutietheorie niet “maar een theorie” is, en hoe bepaald kan worden of een nieuw medicijn tegen een ziekte werkt of niet, en waarom we enorme apparaten bouwen op zoek naar een nog onontdekt elementair deeltje. Inzichten uit de wetenschapsfilosofie zijn hierbij van groot belang, en ik ben daarom blij te mogen samenwerken binnen het Freudenthal Instituut met de groep “History and Philosophy of Science”.

Bij de vraag hoe wetenschap werkt krijg je meestal dit plaatje te zien, of een plaatje dat er op lijkt:

Oratie.009

Dit wordt wel de empirische cyclus genoemd. Hoewel die cyclus in de verschillende bronnen verschillende vormen aanneemt, met soms vier, vijf of zelfs zeven stappen is de basisstructuur hetzelfde. Na een oriëntatie volgt het vormen van hypothesen, het toetsen daarvan met experimenten het analyseren van data, het trekken van conclusies die vervolgens kunnen leiden tot nieuwe hypothesen.

De vraag is of dit is wat je zou moeten leren. Er zijn methodes waarin gedacht wordt van wel, maar het gevaar is dat wetenschap dan een kookboek wordt. Dit plaatje is een model, dat probeert de werkelijkheid te vangen. Ik zou er niet voor zijn om al het onderwijs in wetenschap op dit precieze model te baseren.

Ten eerste is het proces niet zo strak als de cyclus het voorstelt. Iedere wetenschapper weet dat in het proces allerlei shortcuts, stappen terug en dode sporen zitten omdat hypothesen nu eenmaal niet goed toetsbaar kunnen zijn en moeten worden bijgesteld voor er een experiment is gedaan. En soms blijkt na een experiment data lastig te interpreteren.

Oratie.010

Ook past het model niet voor een wetenschap als astronomie, waarin het doen van een experiment daar niet mogelijk is men afhankelijk van waarnemingen. Ook is het niet zo dat het volgen van de onderzoekscyclus garantie geeft op goede wetenschap. Mark Windschnitl besprak in een artikel een situatie waarin leerlingen onderzoek deden naar planten en die voedden met cola, ze naar muziek lieten luisteren en ze op hun kop hingen. Het probleem dat hij constateerde was dat leerlingen de experimenten deden zonder een theoretische achtergrond of basiskennis. De resultaten van die experimenten dragen daardoor ook niet bij aan ontwikkelend inzicht, en blijven hooguit als losse feitjes achter.

Wetenschap is modellenwerk

Windschitl betoogt, en met hem anderen zoals de wetenschapsfilosofen als Ronald Giere en Nancy Nersessian, dat dergelijke onderzoeksactiviteiten zinloos zijn omdat ze geen aandacht hebben voor onderliggende theorieën en modellen. Zij plaatsen modellen in het hart van de wetenschap. Wetenschappelijke kennis wordt uitgedrukt in modellen, en wetenschappers sleutelen continu aan de modellen om ze te verfijnen, uit te breiden of, in een enkel geval, ze door iets totaal anders te vervangen. Modellen worden ook gebruikt om nieuwe voorspellingen te doen, ideeën te genereren en ze zijn soms zelf onderwerp van onderzoek. Ik zal dat toelichten met een twee voorbeelden.

Toen Einstein zijn speciale relativiteitstheorie had gepubliceerd was het voor hem duidelijk dat er een algemenere theorie nodig was. Zijn speciale theorie had slechts betrekking op waarnemers die met constante snelheid ten opzichte van elkaar bewegen. Einstein zocht een theorie die voor alle waarnemers, onafhankelijk van hun bewegingstoestand, moest gelden. In 1907 al bedacht hij een modelsysteem waarin het basisidee van zijn algemene relativiteitstheorie kon uitdrukken: personen in een lift zonder ramen. Die personen kunnen geen onderscheid maken tussen een verblijf op aarde en een toestand waarin de lift in een raket gemonteerd is en waarvan de motor een versnelling genereert die gelijk is aan de zwaartekrachtsversnelling op aarde. In beide gevallen voelt de persoon een kracht in de richting van zijn voeten. Ook kan de persoon geen onderscheid maken tussen een lift in vrije val en een in een baan om de aarde.

Einsteins inzicht met behulp van dit modelsysteem was dat als een persoon geen onderscheid ziet of voelt er ook geen onderscheid is vanuit natuurkundig gezichtspunt. Het model leidde tot de voorspelling dat licht wordt afgebogen door zwaartekracht. Het kostte Einstein nog jaren om de wiskundige beschrijving van dit model rond te krijgen in een volledige theorie, maar de voorspelling over de afbuiging van licht bleek te kloppen. De kracht van het model als representatie van gedachten en ideeën en als middel om verder te redeneren komt in dit experiment bijzonder tot uiting.

Een ander voorbeeld is computationele wetenschap. In bijvoorbeeld de astronomie, waarin experimenten met de onderzochte werkelijkheid nu eenmaal niet mogelijk zijn, worden modellen gebouwd op basis van de natuurkunderegels die we kennen zoals de wetten van Newton. Die modellen worden gesimuleerd in de computer en de resultaten kunnen worden vergeleken met observaties.

Via deze weg is bijvoorbeeld ontdekt dat er donkere materie moet zijn, hoewel de nieuwste theorie van Erik Verlinde beweert dat die niet nodig is als we uitgaan van andere basisregels en principes. Dit laat zien dat modellen in principe een eindig leven hebben. Ze zijn bruikbaar binnen bepaalde contexten, op basis van de aannames die aan het model ten grondslag liggen. Als een aanname veranderd moet worden, verandert het model ook. En als het model voorspellingen geeft die niet met de werkelijkheid kloppen is het noodzakelijk de aannames ter discussie te stellen. Computationele modellen spelen in veel wetenschappen een rol. Naast astronomie zijn dat bijvoorbeeld de biochemie en de economie.

In de volgende blogs ga ik verder in op de rol van ICT en hoe dat kan worden ingezet om modellen en modelleren toegankelijk te maken voor jonge kinderen.

Modellenwerk deel 1: waarom en waartoe bèta-onderwijs?

Op 18 mei 2016 sprak ik mijn oratie uit als hoogleraar Didactiek van Wiskunde en Natuurwetenschappen. Op deze blog zal ik deze oratie in delen publiceren, waarbij ik soms zal uitwerken en soms zal inkorten. In dit eerste deel poneer ik de centrale vraag: wat is nu eigenlijk het doel van bèta-onderwijs? In een eerdere blog stelde ik die vraag al voor de wiskunde. Hier trek ik het breder.

Meneer de rector, geachte collega’s, lieve vrienden en familie,

26508781613_9a39dd68c9_k

Het zijn spannende tijden in de natuurkunde. In de periode dat ik deze oratie voorbereidde was er nieuws rond de succesvolle detectie van zwaartekrachtsgolven, aanwijzingen voor een nog onbegrepen verval van een deeltje in twee fotonen in CERN en werd de publicatie aangekondigd van de nieuwe theorie van zwaartekrachtsgolven. En er is veel meer: de uitvoering van het experiment van Bell zonder loopholes in Delft, majoranadeeltjes, grote stappen in de richting van quantum computing, noem maar op. Op dat soort momenten weet ik weer waarom ik ooit natuurkunde ben gaan studeren en waarom ik het nog steeds het mooiste vak van de wereld vind. Bijvoorbeeld het feit dat het mogelijk is om denkend vanuit principes zoals symmetrie en gelijkwaardigheid van waarnemers een theorie te construeren waarvan honderd jaar later een gedetailleerde voorspelling wordt geverifieerd is fascinerend.

Niet iedereen in mijn omgeving begrijpt mijn opwinding altijd, maar ik ben op zo’n moment blij met de keuze van mijn studie. Ik beweeg me niet aan het front van natuurkundig onderzoek, maar ik prijs me gelukkig dat ik me voldoende kennis ervan heb om de principes achter nieuwe ontdekkingen in de fysica te snappen en te begrijpen waarom de natuurkundige gemeenschap zo opgewonden raakt van het Higgs-deeltje, entanglement of zwaartekrachtsgolven. Het is vergelijkbaar met het feit dat ik blij ben met de muzieklessen die ik gevolgd heb. Ik heb me niet ontwikkeld tot een virtuoos gitarist, maar ik denk wel dat ik beter muziek heb leren luisteren en waarderen.

Toen het nieuws over de zwaartekrachtsgolven werd aangekondigd heb ik natuurkundedocenten aangemoedigd op de dag na de persconferenties in hun lessen aandacht te besteden aan deze ontdekking met de volgende tweet:

 Ik kreeg geen reactie, maar hoop dat docenten het zich hebben aangetrokken. De reden waarom ik dat doe is omdat ik het belangrijk vind om te laten zien dat natuurkunde een levend vak is, waarin iedere dag nieuwe dingen in worden ontdekt, van hele grote dingen zoals de voorbeelden die ik zojuist noemde, tot meer alledaagse zaken rond bijvoorbeeld het weer en elektrische auto’s.

Ik twijfel daarom weleens of de manier waarop we natuurkunde onderwijzen op school wel een goed beeld geeft van ons vak, mijn vak. Wat ik hierover ga zeggen is mogelijk in gelijke mate toepasbaar op de andere bètavakken, wiskunde, scheikunde, informatica en biologie. De curricula van deze vakken bevatten een groot aantal basale onderwerpen die belangrijk geacht worden voor het vak, vastgelegd in examenprogramma’s en syllabi. Het hoofddoel voor docenten is zoveel mogelijk leerlingen voor te bereiden voor de examens, hetgeen betekent dat zij leren de opgaven te maken die de kennis over deze onderwerpen toetsen. Om het belang van de relatie van het vak met de maatschappij te benadrukken is daarbij zelfs een aantal zogenaamde contexten voorgeschreven.

Mijn grote angst is dat een dergelijke aanpak het leven uit het vak perst. Laat ik bij mijn eigen vak blijven. Bij de recente vernieuwing van het eindexamenprogramma natuurkunde is het onderwerp quantum wereld opnieuw geïntroduceerd. Op zich is dit een goed idee, maar het resultaat was beperkt door de keuze voor een beperkt aantal deelonderwerpen: het duale karakter van materie en licht (het is een golf en deeltje tegelijk), en het kunnen rekenen aan een fictief modelsysteem, het deeltje in een doosje. Geen woord over superpositie van toestanden, over interpretatie en entanglement. Dat laatste is van belang voor moderne toepassingen van quantummechanica in quantumcomputers en quantumencryptie. Nu wil ik niet beweren dat we per se die onderwerpen moeten toevoegen aan de lijst – voor je het weet is die onwerkbaar lang. Ik wil vooral pleiten om een stap terug te doen en te kijken wat we eigenlijk willen bereiken met het onderwijs in de natuurkunde en de andere bètavakken.

De centrale vraag die mij al een tijd bezighoudt en waarvoor ik deze gelegenheid neem om mijn gedachten te ordenen en te delen is deze: “Waarom doen we eigenlijk aan onderwijs in de bètavakken?” Het standaardantwoord hierop bestaat uit een combinatie van argumenten zoals “we moeten leerlingen voorbereiden op een vervolgopleiding”, “we hebben bèta’s en ingenieurs nodig voor de economie” en “ze leren logisch denken door wiskunde”.

Deze argumenten zijn natuurlijk belangrijk, helemaal zonder basisvaardigheden in de wiskunde, en basiskennis over natuurwetenschap kan niemand. Voor vervolgopleidingen is het natuurlijk handig als beginnende studenten niet helemaal blanco binnenkomen. Toch wil ik u uitdagen na te denken over de vraag of het onderwijs dat we bieden dan wel zo goed aansluit?

Laat ik een voorbeeld noemen uit een ander vak: Engels. Niemand zal ontkennen dat het leren spreken, luisteren, lezen en schrijven in de Engelse taal belangrijk is om te functioneren in de maatschappij. Maar bij het vak Engels wordt naast de taalvaardigheid ook aandacht besteed aan Engelse cultuur, met name literatuur. Dit literatuuronderwijs staat niet ter discussie. Het zou ondenkbaar zijn dat iemand van havo of vwo af komt die nog nooit van Shakespeare, Vondel of Wolkers gehoord zou hebben. Maar waarom vinden we dat nu eigenlijk? Ik denk dat daar minimaal twee redenen voor zijn. Ten eerste is het natuurlijk belangrijk om ingewijd te raken in de cultuur. Ten tweede geeft leren over Shakespeare en andere grote schrijvers reden om de taalvaardigheid te leren. Ik ben blij dat ik Engels heb leren beheersen, niet alleen omdat ik daarmee met mensen buiten Nederland kan communiceren maar ook omdat ik bijvoorbeeld de boeken van Julian Barnes in de oorspronkelijke taal kan lezen en begrijpen. Op die manier is die taal ook een bron van plezier en genot geworden.

Plezier en genot is niet wat de meeste leerlingen associëren met  bèta-onderwijs. De focus ligt daar erg op het voorbereiden voor het eindexamen, dat grotendeels bestaat uit het maken van opgaven, al dan niet voorzien van een context. De vormende functie van bèta-onderwijs lijkt hierdoor achter te blijven. Daar waar in een vak als Engels ook het affectieve en esthetische aspect van het vak aan de orde komt, ook in de examens, blijft dat bij de bèta’s onderbelicht. De opgaven op die examens zijn vaak inwisselbaar en gaan niet echt over de kern van het vak. Bijvoorbeeld is het verhaal in onderstaande examenvraag uit het HAVO-examen 2016 overbodig voor het begrip van de som.

HAVO

Maar wat moeten we dan wel? Op die vraag wil ik in deze rede ingaan: wat we moeten we eigenlijk leren van en over bètawetenschap, en waarom dat belangrijk is en voor wie dat belangrijk is. Ook ga ik uiteraard in op het hoe van dat leren en hoe we dat kunnen onderzoeken. En het zal u niet verbazen: de rol van modellen in dit geheel speelt een grote rol. Ik ga hierop in in het vervolg op deze blog.

Modelleren in het natuurkunde-examen

Afgelopen vrijdag maakten de 6 VWOers het eindexamen Natuurkunde. Zoals de laatste jaren gebruikelijk is zat er een vraag in over modelleren. De kandidaten moesten een model maken van een lift die met behulp van een motor omhoogklimt langs een kabel die gespannen is tussen het aardoppervlak en een satelliet. Na twee inleidende vragen over die satelliet en de kabel werden de leerlingen geconfronteerd met dit model (Bron: examenblad.nl, het volledige examen is hier te downloaden):

Screenshot 2016-05-20 21.34.48

Een diagram met veel pijlen waarvan  ik zelf ook moeite heb om te snappen wat er staat. Als tekst wordt het model zo weergegeven:

Screenshot 2016-05-20 21.36.43

Als je goed oplet zie je dat deze regels ook in de grafische vorm worden weergegeven. Leerlingen moeten over dit model vragen beantwoorden, maar voordat ik die bespreek eerst een korte uitleg over dit model, regel voor regel.

Het draait allemaal rond de variabele x, de hoogte van de lift rond het aardoppervlak. Tenminste, dat nemen we aan uit de context, want de namen van de variabelen (rx, Ma, x, etc. worden niet verklaard). Aan het begin van een stap in het model bevindt de lift zich op een hoogte x. Dan gaan we regel voor regel kijken wat er wordt berekend:

1.     rx = Ra + x De afstand van de lift tot het middelpunt der aarde wordt berekend door de straal van de aardbol bij x op te tellen
2.     mtot = m_lift+m_brandstof  De massa van lift en brandstof wordt opgeteld tot een totale massa
3.     Fg = G * Ma * mtot/rx^2 Gebruikmakend van de zwaartekrachtwet van newton wordt de zwaartekracht op de lift uitgerekend
4.     Fmpz = mtot * 4π^2*rx/(24*3600)^2 Omdat de aarde draait moet op de lift een middelpuntzoekende kracht worden uitgeoefend. Die is gelijk aan mω2r, waarbij ω de hoeksnelheid is. Die reken je uit door 2π te delen door de omlooptijd, in dit geval het aantal seconden in een dag. De formule klopt niet helemaal, in plaats van 24*3600 seconden in een dag moet eigenlijk uitgegaan worden van een siderische dag: iets meer dan 86164 seconden.
5.     Fmotor = Fg – Fmpz De motor levert een kracht naar boven die precies gelijk is aan de netto kracht op de lift – zwaartekracht min de middelpuntzoekende kracht – op die manier gaat hij met een constante snelheid omhoog, dat staat ook in de opgave.
6.     dx = v * dt7.     x = x + dx Dit zijn regels om het model te laten “lopen”, de verplaatsing binnen een tijdstap wordt uitgerekend en die wordt bij de plaats opgeteld.
8.     dW = Fmotor * dx De arbeid die de motor verricht is gelijk aan de kracht keer de verplaatsing
9.     dm_brandstof = … Het verbruik van de brandstof wordt gevraagd.
10.  m_brandstof = m_brandstof – dm_brandstof De verbruikte brandstof wordt van het totaal afgetrokken
11.  als x>4.0E7 dan stop eindals Als de lift op de gewenste hoogte is aangekomen, dan stopt het model
12.  t = t+dt De tijd wordt opgehoogd met een tijdstap.

En dan nu de vragen over dit model. De eerste vraag is te omschrijven wat in regel 8 wordt berekend. Het antwoord staat hierboven al. Het is het herkennen van de definitie van arbeid in de modelregel. Daarbij word je geholpen door het feit dat W (Work) normaalgesproken wordt gebruikt als symbool van arbeid.

De volgende vraag is regel 9 aan te vullen. Dit is typisch een trucjesvraag. dW wordt nog nergens aan de rechterkant van een =-teken gebruikt. Hetzelfde geldt voor verbrandingswarmte, dus die zal er ook wel in moeten. De eenheid van verbrandingswarmte is Joule/kg, de massa aan de linkerkant gaat in kg, dW gaat in Joule dus: dm_brandstof = dW/verbrandingswarmte. Waaraan voorbij wordt gegaan is dat er een rare aanname in de formule zit, namelijk dat alle energie die bij de verbranding vrij komt, wordt omgezet in arbeid om de lift omhoog te krijgen. Een rendement dat nooit kan. De formule zou dus eigenlijk moeten zijn: dm_brandstof = dW/(verbrandingswarmte*rendement). Maar rendement is geen variabele. De derde vraag is hoe je kunt zien dat v constant is is een inkoppertje: er is geen modelregel die begint met v = …. Dus v kan niet veranderen.

In de vraag die hierop volgt moeten leerlingen beredeneren dat je met minder brandstof ook boven kan komen, omdat je dan ook minder brandstof op hoeft te tillen. Een vraag waar je modelregels bij moet noemen, maar die ook op basis van eenvoudige principes los van het model is te beantwoorden.

Ik ben een groot voorstander van modelleren in het onderwijs, maar ik ben niet blij met deze opgave. Ten eerste gaat deze opgave alleen over de technische kant van het modelleren: een regeltje aanvullen, inzien dat een variabele niet verandert als er geen regel voor is, etc. Inzicht in waarom modellen eigenlijk worden gebruikt en wat ze betekenen wordt niet getoetst. Ook is er geen aandacht voor de aannames over het model, zoals het 100% rendement en de aanname dat de snelheid constant moet zijn. Vragen over wat er voor nodig zou zijn om dat te realiseren, waarom je in het model de relatie tussen kracht, versnelling en snelheid mag negeren, wat de stijgende lift met de kabel doet, etc worden niet gesteld. Binnen de context van zo’n examen is dat ook onmogelijk, maar de vraag is of je dat ook moet willen.

Naast dit alles vind ik de gekozen modelleertaal niet fijn. De grafische representatie is al snel onoverzichtelijk en de modelregels zijn in een quasi-programmeertaal geschreven. Raar vind ik dat getallen in de grafische representatie anders worden geschreven dan in de tekst (4,0.107 grafisch vs. 4,0E7 in de tekst). En als een super- en subscript mogelijk is waarom schrijf je dan niet Fmotor in plaats van Fmotor. En in de tekst duikt opeens een π op, wat betekent dat het ook weer geen echte programmeertaal is, die dit soort symbolen niet kent. Bovendien staat er 4π en niet 4 * π wat een programmeertaal zou eisen. Ik geef toe dat dat een beetje een zeurpunt is – ik verwacht niet dat leerlingen hier de mist op ingaan – maar als je modellen in een programmeertaal wil geven doe het dan goed.

Het resultaat is een vraag waarin leerlingen wordt gevraagd wat trucjes toe te passen op een wat slordig geformuleerd model in plaats van echt na te denken over wat modelleren is. Mijn voorstel zou zijn om modelleren in een praktische opdracht te verwerken, waarin leerlingen echt modellen zelf moeten bouwen, in een taal naar hun keuze. Modelleren is als vaardigheid te waardevol om op deze manier te toetsen.

Waarom Wiskunde?

Afgelopen maand mocht ik op het 2e fasecongres wiskunde van Noordhof een lezing houden voor ongeveer 500 leraren wiskunde. De aanleiding daarvoor was het nieuwe examenprogramma voor wiskunde en de daarmee samenhangende presentatie van de nieuwe edities van de twee grootste wiskundemethodes, allebei uitgegeven door Noordhof: Getal en Ruimte en Moderne Wiskunde. De kans is groot dat u in uw schooltijd wiskunde heeft geleerd uit één van deze methodes. In die lezing heb ik een uitspraak gedaan die een klein stofwolkje deed opwaaien, ik pleitte voor afschaffing van de grafische rekenmachine bij de examens wiskunde. Daarbij merkte ik dat er op me wordt gelet, in mijn rol als wetenschappelijk directeur van het Freudenthal Instituut. De gezworen vijanden van het FI, Beter Onderwijs Nederland, publiceren zelfs dat mijn uitspraken hoopvol zijn. Omdat mijn slides niet alles zeggen, en ik de interpretatie daarvan niet graag aan anderen over laat geef ik hier een kleine samenvatting van mijn lezing.

De centrale vraag die ik mezelf stelde is waarom we eigenlijk wiskunde doen op school. De aanleiding is enige onvrede met de methodes, waarin veel aandacht is voor wiskunde als instrument: handig om dingen uit te rekenen, nuttig voor een studie of carrière maar meer ook niet. Ik denk zelf dat wiskunde meer is dan dat, en begon mijn lezing met aan de mensen in de zaal te vragen wat zij daarvan vonden. Daarnaast had ik een paar mensen gevraagd een korte video in te spreken waarin zij hun visie gaven op de vraag waarom je wiskunde moet leren. Mijn Collega Dolly van Eerde had het aan leerlingen gevraagd. Hogeschooldocent Sander Claassen noemde een aantal redenen maar benadrukte vooral dat wiskunde leuk is: kinderen vinden het leuk om puzzels op te lossen en dingen uit te zoeken. Dat moet je koesteren en ze niet afleren. Ionica Smeets pleit ervoor om leerlingen begrip van getallen bij te brengen omdat je dan veel meer begrijpt in het dagelijks leven. Tot slot spreekt Erik van den Ban, een wiskundige aan de universiteit Utrecht zijn fascinatie uit voor de schoonheid van het bouwwerk van de wiskunde.

Ik heb uit de video’s zes beweegredenen gehaald die ik in bovenstaande figuur samenvatte en daar weer drie perspectieven uitgehaald (wetenschap is ordenen tenslotte): De instrumentele blik, waarin wiskunde vooral wordt gezien als een nuttig gereedschap, het inzichtsperspectief, waarin wiskunde vooral helpt om dingen te begrijpen en het culturele en persoonlijke perspectief. Bij die laatste is mijn stelling dat wiskunde net zo goed een uiting van menselijke cultuur is als de toneelstukken van Shakespeare en de schilderijen van Van Gogh. Wiskunde kan daarom ook een levensvervulling bieden, los van concrete directe toepassing. Ik pleit daarom ook voor onderwijs in de geschiedenis van de wiskunde en dat helden in de wiskunde net zo goed geleerd mogen worden als die in schilderkunst en literatuur.

WhyMath

In mijn betoog had ik twee kritische opmerkingen over elementen in het wiskunde-onderwijs en de methoden. De ene betreft het gebruik van contexten. Wanneer je wiskunde ziet als instrument is het nuttig om daarbij een context aan te bieden waarin dat instrument wordt toegepast. Bijvoorbeeld kan het zinnig zijn om te laten zien dat wiskunde wordt toegepast in andere vakgebieden zoals economie of natuurkunde. Het verdient de voorkeur dat die contexten ook daadwerkelijk iets betekenen voor de leerling. De wens voor die contexten is echter doorgeslagen. In de wiskundemethoden kom je veel sommen tegen waar een verhaaltje tegenaan is geplakt als context, zonder dat dit echt betekenis heeft. Sterker nog, soms zijn die verhaaltjes onzinnig, zoals onderstaand voorbeeld uit Getal en Ruimte:

Motorfiets

Ten eerste komt de functie voor de afgelegde weg volkomen uit de lucht vallen. Als je een natuurkundig verschijnsel analyseert zal je op zijn minst moeten zeggen waar het model dat je gebruikt vandaan komt. Bovendien is de functie vreemd. Dat is het beste te zien als je de versnelling berekent die bij deze functie hoort: a = 6*t. Dus op t=2, het tijdstip waarover vragen worden gesteld is de versnelling al 12 m/s^2. Dat is meer dan de valversnelling. De motorrijder hangt dus aan zijn stuur als Epke Zonderland aan zijn rekstok: de horizontale kracht die hij voelt is meer dan de zwaartekracht. Mijn punt hierbij is dat de context niets zinnigs toevoegt, natuurkundig fout is en dat leerlingen op deze manier niet serieus genomen worden.

Mijn andere punt betreft de grafische rekenmachine. Deze apparaten mogen worden gebruikt bij het wiskunde-examen. Ik heb niets tegen ICT-gebruik bij de wiskundeles, maar dit apparaat is een bizar geval. Het wordt alleen op school gebruikt, is onhandig en is volkomen verouderd. Als leerlingen ICT gebruiken gebruik dan goede tools, zoals Wolfram Alpha of Geogebra. Ik zou willen dat leerlingen leren dergelijke tools op een goede manier te gebruiken, in plaats van een apparaat dat ze na school nooit meer tegen komen. Ik zou dan ook de commissie die daar over gaat willen oproepen de grafische rekenmachine op zo kort mogelijke termijn af te schaffen. On-line tools zijn misschien niet praktisch tijdens een centraal schriftelijk examen, maar dat hoeft niet erg te zijn, dat kan ook met behulp van een werkstuk tijdens het schoolexamen bijvoorbeeld.

Ik hoop met mijn lezing de wiskunde-onderwijswereld aan het denken te hebben gezet: Waarom geven we dat mooie vak, en hoe doen we dat zo goed mogelijk. Met daarbij vooral ook aandacht voor de mooie kanten van wiskunde als discipline: haar geschiedenis, als middel om de wereld om ons heen te begrijpen en als iets dat gewoon mooi, leuk en interessant is.

Instructional Efficiency, a measurable quantity?

I also have a Dutch version of this blog

Sometimes you do not succeed in getting one of your articles published in a scientific journal. Even if you are convinced that the article is a valuable contribution to the field, it sometimes happens that your manuscript is not seen as publishable by editor and reviewers. In the first place you have to seek the cause in yourself. Apparently you did not succeed in presenting your ideas in a convincing way. Sometimes, however, it is the case that your article goes against an idea, and reviewers keep defending that idea. That can be frustrating. This is what happened to one of my articles on the concept of “Instructional Efficiency”. That is a measure that has frequently been used within the context of  Cognitive Load theory, which has as a central thesis that in instruction you should take in mind that learners have a limited working memory capacity. In principle this is a plausible idea, but the way the proponents of the theory measure Cognitive load and the conclusions they draw are sometimes disputable.

One of the concepts used within CLT is that of  “Instructional Efficiency”, also referred to as  “Relative Condition Efficiency”. I will plainly refer to this as  “Efficiency”. It is supposed to be a measure for the quality of someones knowledge. The higher the efficiency, the better the knowledge. Efficiency is a trade-off between performance on a test and “Mental Effort”. If you perform well on a test with little effort your knowledge is more efficient than of someone with the same performance, using more effort. This line of reasoning can be critiqued, but that is not my point here. I addressed the mathematical form of the efficiency measure.

Efficiency concerns both performance and effort and therefore both must be measured. Performance is usually measured by the score on a test, expressed as a percentage of a maximum score. Cognitive Load researchers usually measure mental effort by letting subjects indicate the amount of effort they spent on a scale from 1-9. Also on this measure it is possible to expres some critical notes. To what extent can people indicate their effort themselves and shouldn’t you involve time on task as well? This discussion is indeed performed elsewhere. The curious thing, however is the way efficiency is computed mathematically. That is done using the following formula:

Efficiency

The reasoning behind the formula is the following: Someone with an average performance(P) and an average effort(R) has efficiency 0. To compute the efficiency of another person, we compute how much he or she deviates from the averages by computing z-scores. A z-score is the difference with the average, divided by the standard deviation, which is a measure for the amount the data points are spread. The point is plotted in a graph and the distance between the point and the line where for which both z-scores are the same is seen as the efficiency. To make that clear I depicted this in a simulation.

In the graph below, two or three conditions can be compared, the conditions may be groups of students following different kinds of instruction. Efficiency is the length of the line between the red points and the line that is drawn under a 45 degree angle. By pressing Simulate, a new data set is generated.

Now for my problems with this way of computing. There are two: first, a graph is confused with a geometrical plane. In a graph the x and y axes have different units. In a plane they both have dimension length and you can measure the distance between points in any direction. In a graph this is impossible because of the differing units. A line under an angle does not have a meaning, it is like adding meters to liters.

The second objection is the fact that the measure is dependent on the way the data is distributed. If you vary the standard deviation with the same averages you see that efficiency also changes and even can change its sign! For instance, try for performance standard deviations of 20, 10 and 1 and see what happens to the efficiency. A measure that depends on distribution cannot be a good measure (unless it is a measure of the distribution itself of course). Also adding a third condition changes the efficiencies of the original two conditions.

Here is the manuscript that has been sent to five journals and was rejected everytime. If your are interested, especially if you have mathematical or statistical background, I would appreciate your comments.

Efficiente kennis, een meetbare grootheid?

I also have an English version of this blog.

Soms lukt het je niet om een artikel geplaatst te krijgen in een wetenschappelijk tijdschrift. Zelfs als je zelf overtuigd bent dat het artikel een waardevolle bijdrage aan het veld levert gebeurt het je soms dat je stuk niet wordt gewaardeerd. Dat ligt in eerste instantie natuurlijk aan jezelf. Kennelijk lukt het je niet je idee overtuigend genoeg te brengen. Soms krijg je ook je idee niet aan de man omdat je sterk tegen een bepaald idee ingaat, en de reviewers steeds dat idee blijven verdedigen. Frustrerend. Ik heb zo’n artikel op de plank liggen over het begrip “Instructional Efficiency”. Dat is een maat die wel gebruikt wordt in de theorie van Cognitive Load, die beweert dat je bij instructie rekening moet houden met het werkgeheugen van de leerling. Daar is op zich niets mis mee, maar de wijze waarop aanhangers van de theorie de Cognitive Load meten en de conclusies die ze trekken liggen wel onder vuur. Een van de begrippen die gebruikt wordt is dat van “Instructional Efficiency”, ook wel “Relative Condition Efficiency” genoemd. Vanaf hier noem ik het kortweg “Efficiency”. Het idee is dat het een maat is voor de kwaliteit van iemands kennis. Hoe hoger de efficiency van iemands kennis, hoe beter die is. Die efficiency is een trade-off van prestatie en “Mental Effort”. Als je goed presteert op een taak met weinig mentale inspanning is je kennis efficiënter dan van iemand die dezelfde prestatie haalt met meer inspanning is de redenering. Nu kun je over die redenering twisten, maar dat is niet mijn punt. Mijn bezwaar ging over de wiskundige definitie van Efficiency.

Omdat Efficiency zowel gaat over prestatie als inspanning moet je beiden kunnen meten. Prestatie is relatief makkelijk te meten vaak gaat het het aantal punten op een toets, genormeerd naar een percentage. Door onderzoekers naar Cognitive Load wordt in de regel mentale inspanning gemeten door proefpersonen op een schaal van 1 tot 9 aan te laten geven hoe belastend ze een bepaalde taak vinden. Ook daar is kritiek op te geven: in welke mate kunnen proefpersonen dat zelf aangeven en moet je behalve belasting niet ook de tijd meenemen die proefpersonen over de taak hebben gedaan. Die discussie wordt elders gevoerd. Wat echter curieus is, is de wijze waarop  vervolgens efficiency wordt berekend. Dat gebeurt met de volgende formule:

Efficiency

De redenering achter de formule is de volgende: Iemand met een gemiddelde prestatie(P) en een gemiddelde inspanning(R) heeft efficiency 0. Om dat van iemand anders te berekenen berekenen we hoeveel hij van de gemiddelden afwijkt, door z-scores te berekenen. Een z-score is het verschil met het gemiddelde, gedeeld door de standaardafwijking, een maat voor de spreiding van de gegevens. Dat punt wordt uitgezet in een grafiek en je berekent de afstand tot de lijn waarvoor beide z-scores gelijk zijn. Om dat helder te maken heb ik dit in een simulatie weergegeven. 

In onderstaande grafiek worden twee of drie condities vergeleken, bijvoorbeeld de kennis die het resultaat is van verschillende vormen van instructie. De efficiency is de lengte van het lijntje tussen de rode punten en de lijn die onder 45 graden getekend staat. Door op “Simulate” te drukken wordt een nieuwe dataset gegenereerd. 

Wat is nu mijn bezwaar tegen deze manier van berekenen? Dat zijn er twee: ten eerste wordt hier een grafiek verward met een meetkundig vlak. In een grafiek staan langs x-as en y-as twee grootheden met verschillende eenheden. In een meetkundig vlak kun je afstanden tussen punten meten, in een grafiek kun je dat niet omdat de horizontale en verticale eenheden verschillen. Een schuin lijntje heeft daarin geen betekenis. Het is alsof je meters bij liters op zou kunnen tellen.

Het tweede bezwaar betreft het feit dat de maat afhankelijk is van de verdeling. Als je bij dezelfde gemiddelden de standaarddeviaties varieert zie je dat de efficiency verandert, en zelfs om kan keren. Vul hierboven maar eens achtereenvolgens voor de standaarddeviatie van performance 20, 10 en 1 in en kijk wat dat met de efficiency doet. Een maat die afhangt van de verdeling van de scores kan geen goede maat zijn. Ook wanneer een derde conditie wordt toegevoegd zie je de efficiency van de originele condities veranderen. 

Hier vind je het manuscript waarmee ik geleurd heb bij meerdere tijdschriften. Als je geïnteresseerd bent, zeker als je enige wiskundige of statistische achtergrond hebt stel ik je commentaar op prijs.

Schaatser versus streep

Voor wie regelmatig schaatsen kijkt, zoals ik, is het al bijna een vertrouwd verschijnsel, de streep die de tijd van de tot dan toe snelste rijder aangeeft. Als je voor die streep finisht sta je bovenaan in het klassement. Wat echter opvalt is dat veel schaatsers die streep pas op het laatst lijken in te halen, terwijl ze bij het uitkomen van de bocht nog een forse achterstand hebben. Frank Snoeks, de commentator, viel het ook op, en vond dat de streep tamelijk willekeurig werd gehanteerd. Hij riep onder andere uit: „Weer die streep, je denkt daar komt hij nooit voorbij! Die streep, daar deugt niks van!” Je kunt zowel de streep als zijn commentaar in de volgende video zien en horen (overgenomen van de NOS-site).

Dat er niets van klopt is niet waar, maar het model waarmee de plek van de streep berekend wordt is inderdaad niet gelukkig gekozen. Zo te zien wordt de streep berekend op basis van een constante snelheid van de schaatser, terwijl in het echt de schaatser op een snelheid van nul begint en op gang moet komen. De streep gaat in het begin dus te snel ten opzichte van de schaatser en aan het eind te langzaam.

Ik heb dat eens uitgerekend voor een rit van 500 meter: hoe verloopt de rit voor de streep en voor een schaatser die allebei op 35 seconden uitkomen? Ik ging er daarbij van uit dat de schaatser opent (d.w.z. de eerste 100 meter aflegt) in 9.6 seconde. Ik heb aangenomen dat de schaatser zo snel mogelijk versnelt naar de gemiddelde snelheid van de volle ronde. Ook niet helemaal correct waarschijnlijk maar een betere benadering dan een constante snelheid. In dit geval bereikt de schaatser na 51 meter, in 6.5 seconde zijn kruissnelheid. Op dat moment heeft hij een achterstand van 42 meter op de virtuele streep. Die loopt hij in de rest van de rit in. Bij het uitkomen van de tweede bocht (op ongeveer 400 m) heeft hij daarbij nog altijd een achterstand van zo’n negen meter op de streep. Toch komen streep en schaatser na 35 seconden precies gelijk op de finish aan. In onderstaande grafiekjes is het verloop van de race tussen schaatser en streep geschetst.

De ontwikkeling van de snelheid van de streep en van de schaatser
De ontwikkeling van de snelheid (in m/s) van de streep en van de schaatser
Het verloop van de wedstrijd tussen de schaatser en zijn 'eigen' streep
Het verloop van de wedstrijd tussen de schaatser en zijn ‘eigen’ streep
De achterstand van een schaatser op de streep die tegelijk met hem finist
De achterstand van een schaatser op de streep die tegelijk met hem finist

Je hebt dus eigenlijk niet veel aan die streep. Het kan echter vrij gemakkelijk beter. Als de regie de positie van de streep niet baseert op de eindtijd van de schaatser wiens tijd wordt weergegeven, maar op zijn rondetijd wordt hij veel nauwkeuriger. De kijker kan dan een realistischer wedstrijd zien tussen de schaatser en zijn tegenstander in een eerdere rit.

Update: Bij het kijken naar de Olympische spelen valt me op dat de positie van de streep nu wel goed overeenstemt met die van de rijder die die tijd gereden heeft. Het lijkt erop dat hij nu gebaseerd is op daadwerkelijke metingen van die rijder of berekend op basis van de volle-rondetijd.

 

 

Zwaartekracht

In het nieuwe examenprogramma natuurkunde, voor VWO is er aandacht voor sterrenkunde. Een goede zaak, want het antwoord op veel fundamentele vragen in de natuurkunde is te vinden in de sterren. Door de blik naar boven te richten en de straling van sterren en sterrenstelsels te onderzoeken krijgen we inzicht in de fysische processen in extreme situaties zoals hoge temperaturen en dichtheden, en in de bewegingen van de hemelobjecten.

Inzicht in sterrenkunde kan niet zonder inzicht in de zwaartekracht, de kracht die er voor zorgt dat dingen naar de aarde vallen, dat de aarde in een baan om de zon blijft en dat ons zonnestelsel om het centrum van de melkweg cirkelt. Het mooie is dat we door de introductie van sterrenkunde meteen een goed platform hebben om het te hebben over die zwaartekracht. Velen associeren zwaartekracht met sommen over kogelbanen en ballen die van torens worden geworpen.Het nadeel daarvan is dat alles uiteindelijk op aarde terechtkomt. Het is veel interessanter om situaties te onderzoeken waarin de zwaartekracht haar bindende rol in het heelal kan spelen.

Ik werd gevraagd door Jaap Vreeling, coordinator onderwijs van NOVA, of ik mee wilde denken over een simulatie die gebruikt kan worden in het onderwijs. Hij regelde een afspraak met Simon Portegies Zwart, hoogleraar computationele astronomie in Leiden. Ik kon niet laten er na dit gesprek mee te beginnen. Met behulp van algoritmes en datasets van Simon (www.nbabel.org) en de database van Jet Propulsion Lab van NASA, met de posities en snelheden van alle bekende objecten in het zonnestelsel heb ik een eerste vingeroefening gedaan. Het resultaat staat hieronder. Of klik hier voor een full screen versie.

De simulatie bevat een aantal voorbeelden: een systeem met de zon, aarde en maan, niet op schaal. Interessant is te zien dat de zon een klein beetje waggelt en dat de baan van de maan sterk varieert onder invloed van de zon. Het hele zonnestelsel is wel op schaal, tenminste, de afstanden van de objecten zijn dat. Als ik de afmetingen van de planeten ook op schaal zou maken zouden ze onzichtbaar zijn. De startposities van de planeten zijn die op 1 december, de dag dat ik ze uit de database heb gehaald. Mooi is om een planeet, bijvoorbeeld de aarde centraal te zetten en vorm van de baan te laten plotten. De lussen die je ziet verklaren waarom planeten soms in omgekeerde richting lijken te bewegen:

Je kunt zelfs zien dat Mars helderder wordt tijdens de terugbeweging, logisch, want hij staat dan dichterbij.

In de zonnestelselsimulatie heb ik ook de baan van een planetoïde opgenomen. Niet geheel toevallig die van de planetoïde “Marieke Baan“, de persvoorlichter van NOVA. Tot slot heb ik een aantal simulaties van sterrenhopen toegevoegd, gedownload van nbabel.org. Als je goed kijkt zie je dat soms een ster wegschiet, en dat er kleine deelgroepjes van sterren ontstaan.

Ik ben niet van plan de simulatie helemaal te gaan bouwen,en heb nog wel een wensenlijstje: een real-time koppeling met JPL, plotten van de baan van de voyagersondes, en meer interactiviteit, zodat leerlingen bijvoorbeeld een reis naar Mars kunnen plannen.Het zou dus mooi zijn als dit op de een of andere manier verder opgepikt wordt.

Consistentie van de scholenlijst

Het stuk over de lijst van Dronkers is met afstand het best gelezen stuk op deze blog. Ik gaf daarin kritiek op diverse aspecten van de wijze waarop Dronkers tot zijn cijfers komt. Een van de dingen die mij – en anderen, Dirk van der Wateren en OogTV– opvielen is dat de scores tussen dit jaar en vorig jaar nogal kunnen verschillen, met een extreem geval dat een school van 9 naar 3.5 gaat. Dronkers zelf rapporteert correlaties tussen de scores van vorig jaar en dit jaar (variërend van 0.22 tot 0.49) constateert dat die significant zijn (p<0.01) schrijft hierover:

„De samenhang tussen de schoolexamencijfers van beide jaren is substantieel; blijkbaar zijn ze niet het resultaat van toevallige goede of slechte jaren.”  (pagina 8).

Hoe zit dat nu? Om het beeld compleet te krijgen heb ik voor het VWO de cijfers van dit jaar geplot tegen de cijfers van vorig jaar. Die cijfers zijn te downloaden van schoolcijferlijst.nl. Het resultaat zie je hieronder:

2013-2012

Elk blauw puntje staat voor 1 of meerdere scholen. Als alle scores dit jaar hetzelfde zouden zijn als vorig jaar, zouden alle punten op de groene lijn liggen. Dat is niet zo, scholen kunnen natuurlijk beter of slechter gaan scoren dan vorig jaar. Bovendien heeft Dronkers zijn rekenmethode iets gewijzigd, hetgeen ook kan leiden tot verschillen. Op het oog is de spreiding wel erg groot, de school rechtsonder die van 9 naar 3,5 gaat ligt wel erg buiten de puntenwolk, maar grote verschillen zijn geen uitzondering.

Interessant is de rode lijn. Dat een regressielijn, de lijn die het beste het verband weergeeft tussen de cijfers op de horizontale en verticale as. Je verwacht dat die min of meer samenvalt met de groene. Scholen veranderen niet heel snel. Dat doet hij duidelijk niet. De vergelijking van de lijn is:

y = 0.37x+4.96.

terwijl y=x het ideale verband is. Concreet betekent dat dat scholen die in 2012 laag scoorden (7.5 of lager) gemiddeld hoger gingen scoren terwijl hoger scorende scholen dat lager gingen doen. Een geval van regressie naar het gemiddelde: Omdat je moeilijk hoger kunt is de kans dat je volgend jaar lager scoort groter. En belangrijker, het getal 0.37 geeft aan dat het verband tussen beide jaren helemaal niet zo sterk is. Een significant verband geeft nog niet aan dat het verband ook heel sterk is.

Op basis van deze grafiek kun je dus de nodige vraagtekens zetten bij Dronkers’ bewering dat toevallige goede of slechte jaren geen rol lijken te spelen.

Lijstjes van scholen

Afgelopen week publiceerde de volkskrant de schoolcijferlijst. Op basis van onderzoek van Jaap Dronkers en zijn groep worden in die lijst cijfers toegekend aan scholen. Zo’n lijst geeft altijd gedoe. De vraag is altijd of ranglijsten van scholen überhaupt een goed idee zijn en of zo’n lijst wel meet wat hij pretendeert te meten. Achter scores zit altijd een model waarmee de score totstandkomt. Om een antwoord op de tweede vraag te krijgen is het goed dit model te onderzoeken. Dat doe ik hier, op basis van Dronkers’ beschrijving die hier te downloaden is (PDF).

Alleen cijfers tellen. 

De waardering die Dronkers toekent aan de scholen hangt alleen van de cijfers af die leerlingen op hun examen behalen, althans dat is de enige maat die Dronkers gebruikt voor de waardering van de opbrengst van de school. Hij houdt wel rekening met de „instroom” van de school, bij de beoordeling daarvan, en kijkt kijkt in lichte mate naar het rendement (zeg het aantal leerlingen dat zonder zittenblijven slaagt) maar uiteindelijk zijn de examencijfers de gulden maat. Zelf zegt hij daarover:

„In wezen zijn loopbaanoriëntatie, zorg, leerlingenbegeleiding en de kwaliteit van docenten vooral middelen om het doel te bereiken en geen kwaliteitsindicatoren. Wie deze indicatoren interpreteert als kwaliteitsmaten, verwart doelen en middelen.” (pagina 1).

Ik ben dat niet met hem eens. Met deze bewering lijkt Dronkers te zeggen dat het enige doel van een school is om zoveel mogelijk leerlingen met zo hoog mogelijke cijfers te laten slagen. Dat is belangrijk, maar niet het enige doel van een school. Een school is vormend. Een goede leraar is er niet alleen op gericht dat leerlingen goede cijfers voor zijn of haar vak halen, maar maakt ook de interesse in dat vak wakker en enthousiasmeert. Of een leerling goed is in bepaalde aspecten van een vak is te meten op een examen. Of die leerling enthousiast is voor een vak en heeft nagedacht of dat vak iets is voor zijn of haar toekomst wordt daarin niet gemeten maar is wel een belangrijke opbrengst. Daarnaast zijn er sociale vaardigheden, organisatievaardigheden en meer, die gezien kunnen worden als een opbrengst van de school. Dat zijn niet alleen middelen om het doel van de hogere cijfers te bereiken, het zijn echte opbrengsten van een school.

De focus op cijfers is een keuze van Dronkers. Bij de interpretatie van zijn resultaten moet je daarmee rekening houden.

Vooral onvoldoendes tellen

Nu komen we op de details van het model. Je zou denken dat een simpele maat het gemiddelde eindexamencijfer is – eventueel gescheiden per vak. Dronkers kiest daar niet voor: hij berekent voor iedere school het aantal vakken waarvan het gemiddelde cijfer op het centraal schriftelijk van de geslaagde kandidaten onvoldoende is, dat wil zeggen lager dan 5.899. Daarbij kent hij een zwaarder gewicht toe aan de kernvakken: Nederlands, Engels en Wiskunde. Het resultaat is een cijfer tussen 4 en 8: een vier voor scholen die meer dan drie vakken onvoldoende scoren, een 8 voor scholen met geen enkel vak onvoldoende. Het cijfer wordt lager als de onvoldoende vakken ook nog eens kernvakken zijn. Het volgende tabelletje, overgenomen van de site schoolcijferlijst.nl, laat deze cijfertoekenning zien:

Het model van Dronkers is dus zeer gevoelig voor cijfers die rond de grens van 5,899 liggen. En omdat gemiddelde examencijfers rond de 6,5 liggen is de kans dat vakken door het ijs zakken vrij groot. Het verschil tussen 5,8 en 5,9 voor een vak kan een heel punt schelen in het model van Dronkers. In sommige gevallen zelfs twee. Belangrijk om hiervan te onthouden is dat, ook al gebruikt Dronkers „schoolcijfers” op de schaal van 1 tot 10, het niet zo is dat dat betekent dat een 8 twee keer zo goed is als een 4. De cijfers vormen geen nette continue schaal, een 6- of 7,3 zijn niet mogelijk. Dronkers deelt wel halve bonuspunten uit, zoals hieronder beschreven.

De „toegevoegde waarde”

Hierna gaat Dronkers bonuspunten toekennen voor twee dingen: de „toegevoegde waarde” en het verschil tussen Schoolexamen en Centraal examen. Maximaal kunnen scholen twee bonuspunten verdienen of twee minpunten krijgen. Voor de „toegevoegde waarde” kijkt Dronkers naar het „bovenbouwrendement”, een score gebaseerd op de cijfers voor schoolexamen en centraal examen, percentage gezakten en het percentage leerlingen dat zonder vertraging het eindexamen haalt. Dat rendement relateert Dronkers aan factoren die mogelijkerwijs het resultaat beïnvloeden: het basisschooladvies, de sociaal-economische status van de ouders, of de leerlingen uit een armoedegebied komen (op basis van postcode). Hij berekent een model dat het rendement „voorspelt”. Vervolgens berekent hij voor iedere school het verschil tussen deze voorspelling en noemt dat de „Toegevoegde Waarde”. Daarvan maakt hij een ranglijst. Als je bij de bovenste 10% van die ranglijst hoort krijg je een bonuspunt, de scholen die daar niet bijhoren maar wel in de bovenste 20% staan krijgen een halve bonuspunt. Aan de onderkant van de lijst krijg je minpunten: de laagste 10% krijgt een hele punt aftrek, de 10% daarboven een halve.

Er is kritiek mogelijk op deze aanpak: weer is het zo dat een klein verschil in score op de „Toegevoegde Waarde” een halve punt kan schelen op de Dronkers-schaal. Daarnaast is het zo dat het model van Dronkers voor de relatie tussen de invoer van de school en het bovenbouwrendement grote onzekerheid bevat. Een aantal factoren draagt wel significant bij, maar een groot gedeelte van de verschillen in bovenbouwrendement wordt niet verklaard door de meegenomen factoren. Daardoor speelt toeval een grote rol in de bepaling of een school wel of niet een bonus- of minpunt krijgt toebedeeld.

Het verschil tussen CE en SE

Het eindcijfer van een leerling bestaat voor veel (niet alle) vakken uit het gemiddelde van het schoolexamen, dat de school zelf afneemt, en het centraal examen, dat wordt gemaakt door het CITO. Vaak ligt het schoolexamencijfer wat hoger dan het cijfer van het centraal schriftelijk. Een school met een groot verschil laadt de verdenking op zich te makkelijke examens te geven waarmee de resultaten van de leerlingen worden opgepoetst. De inspectie vindt dat beide cijfers met niet meer dan een half punt mogen verschillen. Nu kun je daarover van mening verschillen. Bijvoorbeeld wordt bij Engels spreek- en schrijfvaardigheid in het schoolexamen getoetst en leesvaardigheid en tekstbegrip in het centraal schriftelijk. Scores op die vaardigheden zouden best verschillend kunnen zijn. Dronkers pikt het advies van de inspectie op en telt per school het aantal vakken waarvoor het verschil groter is dan 0,5. En ook hier past hij de 10% truc toe: de 10% scholen met de meeste vakken met verschil krijgen een punt aftrek, de scholen met de minste vakken met een verschil krijgen er een punt bij. Het is hierbij merkwaardig dat de grootte van het verschil verder geen rol speelt. Een verschil van 0.51 wordt net zo zwaar bestraft als een verschil van 2.

Alles bij elkaar levert dit een score op tussen de 2 en 10. Niet toevallig lijkt dit op een schoolcijfer, maar het is het niet. Waar een 10 doorgaans betekent dat alles goed is, is het hier een afspiegeling van een combinatie van het aantal onvoldoendes en de plaats op twee ranglijsten, waar hierboven wat kanttekeningen zijn geplaatst. Het is maar de vraag of een school met een 10 in werkelijkheid echt veel verschilt van een school met een 4.

De vraag is nu natuurlijk of de scores van Dronkers iets zeggen over de kwaliteit van de scholen. Ten eerste: kwaliteit is volgens Dronkers gelijk aan examencijfers. Dat is een keuze. Als je die keuze accepteert is er nog veel aan te merken. Het rekenen met rapportcijfers in plaats van de examencijfers zelf en het systeem van bonuspunten maakt het geheel niet helder. Scores zijn in bepaalde gevallen gevoelig voor kleine verschillen en ander verschillen (de absolute hoogte van examencijfers) worden juist niet meegenomen. Een groot verschil in Dronkers-score hoeft niet te staan voor een groot verschil in cijfers. Zo is het verschil in gemiddeld cijfer tussen de hoogste VWO-school (met een 10) en de laagste (met een 2,5) 1,3 punt. Een belangrijk verschil, maar de vraag is of het een verschil tussen een 2,5 en een 10 rechtvaardigt is de vraag. Dat verklaart ook dat de scores van jaar tot jaar fors kunnen verschillen zoals Dick van der Wateren in zijn blog constateert. Overigens was ook het systeem waarmee de scores vorig jaar bepaald werden anders. Een school zakte van een 9 naar een 3.5.

Alles bij elkaar nemend vind ik de functie van deze ranglijst twijfelachtig. De relatie tussen cijfer en examencijfers is arbitrair. En het feit dat alleen cijfers en niet andere vormen van opbrengst worden meegenomen is discutabel. De vraag is of een score gebaseerd op deze methode de opwinding en de discussie die het uitbrengen van de lijst genereert waard is. Ranglijsten zijn sowieso niet zo nuttig, scholen hebben meer aan een genuanceerd beeld van de ontwikkeling van hun leerlingen, tijdens en na hun schoolcarriere. Daarbij zijn cijfers belangrijk maar niet het enige aspect waar op gelet moet worden.

Update: Ik attendeerde Jaap Dronkers op deze blogpost en hij schreef een reactie. Die is hier te lezen.