Bewezen Beleid in Het Onderwijs

Essaybundel
Bewezen
Beleid
in het
Onderwijs
Essaybundel
Bewezen
Beleid
in het
Onderwijs
Essaybundel
Bewezen
Beleid
in het
Onderwijs
Essaybundel
Bewezen
Beleid
in het
Onderwijs
Bewezen
Beleid
in het
Onderwijs
Inhoudsopgave
Inhoudsopgave 2
Voorwoord 5
Koos van der Steenhoven
01 Wetenschap en onderwijsbeleid: 8
een liefdevolle LAT?
Wim Meijnen en Jo Kloprogge
02 Experimentele designs in 26

onderwijswetenschappen
Roel Bosker
03 Kwalitatieve methoden in 40

onderwijsonderzoek
Lennart Vriens
04 Leren over leren 50

Lex Borghans
05 Naar een nieuwe opzet van de 64

onderwijswetenschappen?
Jacquelien Bulterman-Bos
06 Onderwijs op de ladder: maatwerk 84

in het onderzoek naar effectiviteit
Tom van Yperen en Bas Bijl
07 De bijdrage van internationaal

onderwijsonderzoek 100
Dirk Van Damme
08 Evidence based policy in

ontwikkelingssamenwerking 110
Frans Leeuw en Jos Vaessen
09 Helpen straffen. Evidence based policy 128

op het terrein van Justitie
Bouke Wartna
4 | Essaybundel Bewezen Beleid in het Onderwijs Ministerie van Onderwijs, Cultuur en Wetenschap
Voorwoord
Koos van der Steenhoven
Secretaris-generaal van het ministerie van OCW
Het ministerie van OCW hecht aan de wetenschappelijke onderbouwing

van zowel onderwijsbeleid als de onderwijspraktijk. Vanaf 2005, in het
actieprogramma OCW Verandert!, hebben we ingezet op een versterking
van die wetenschappelijke onderbouwing. Dat was mede in reactie op de
grote kritiek in het onderwijsveld en in de samenleving op vernieuwingen
in het onderwijs die eind vorige eeuw waren ingevoerd. Volgens velen
zonder dat voldoende bewijs voorhanden was over het effect dat die
zouden hebben. Dat werd ook nog eens benadrukt door de commissie-
Dijsselbloem die onderzoek deed naar vernieuwingen in het voortgezet
onderwijs. Die commissie hield een pleidooi om nieuw beleid niet zomaar
in te voeren, maar eerst op kleine schaal uit te proberen of het werkt. Pas
als interventies zich hebben bewezen, kunnen die breder worden
ingevoerd. Bewezen beleid dus, wetenschappelijke bewijsvoering is een
belangrijke voorwaarde voor ieder zorgvuldig beleidsproces.
Maar wanneer is iets bewezen? Daarover woedt een fel debat, zowel in
wetenschappelijke kringen en beleidskringen, als in de praktijken van
onderwijs en cultuur (en daarbuiten, zoals in deze bundel valt te lezen over
onder meer ontwikkelingssamenwerking en jeugdzorg). Met deze bundel
willen we dat debat stimuleren, en hopelijk ook verder brengen. In
verschillende bijdragen komen de posities aan bod die in het debat over
evidence based beleid en praktijk worden ingenomen.
Aan de ene kant staan de aanhangers van streng (‘rigorous’) effectiviteits-

onderzoek. Beleid kan pas als evidence based worden beschouwd als op
basis van zogenaamd “gouden-standaard”-onderzoek in de praktijk is
aangetoond dat de effecten die van de beleidsinterventie verwacht worden
zich ook daadwerkelijk voordoen. Kort gezegd kenmerkt “gouden-
standaard”-onderzoek zich door een experimenteel opgezette beleidsin-
terventie, waarbij sprake is van een interventiegroep en een controle-
groep, die op basis van loting zijn samengesteld. Voor het onderwijsbeleid
zou dat betekenen dat op basis van loting wordt bepaald welke groep van
scholen meedoet aan een bepaald programma, waarbij de uitgelote
scholen de controlegroep vormen. Om er achter te komen voor welke
groepen van leerlingen de interventie werkt of juist niet werkt, moet ook
Ministerie van Onderwijs, Cultuur en Wetenschap Essaybundel Bewezen Beleid in het Onderwijs | 5
op leerlingniveau de samenstelling van de onderzoeksgroepen op basis
van loting worden bepaald.
Dit type onderzoek wordt nog weinig verricht in Nederland. Daarom heeft
het ministerie van OCW het initiatief tot oprichting van een nieuw
onderzoeksinstituut op dit terrein van harte gesteund. Dit is TIER
geworden, het Top Institute for Evidence Based Education Research waarin
de universiteiten van Amsterdam, Groningen en Maastricht samenwerken.
Dit instituut heeft onder meer tot doel om gerandomiseerde designs toe te
passen.
Het uitgangspunt van die “gouden standaard” is echter omstreden. Tegen

de “gouden-standaard”- opvatting van evidence based beleid worden
grofweg drie typen argumenten gebruikt:
■■ het eerste luidt dat beleid een te politiek gedreven proces is om zich te
laten sturen door wetenschappelijk onderzoek;

■■ het tweede argument is epistemologisch, het zegt dat experimenteel
onderzoek niet het type kennis oplevert waardoor de bewijskracht van

beleid toeneemt. Experimenteel onderzoek verklaart niet en onder-
zoeksresultaten kunnen niet gegeneraliseerd worden voor nieuwe, nog
niet onderzochte situaties en contexten;
■■ en ten slotte zijn er praktische en ethische argumenten: experimenteel
onderzoek is voor scholen niet te organiseren, de urgentie van beleid

laat het niet toe te wachten op de uitkomsten van experimenteel
onderzoek en sowieso is het niet ethisch te experimenteren met
kinderen.
Deze bezwaren duiden op een diep verankerde weerstand tegen experi-

menteel onderzoek. Die weerstand heeft alles te maken met de suggestie
dat alleen de “gouden-standaard”-benadering echt harde kennis oplevert.
Daarmee introduceert de hardheid van experimenteel onderzoek een
hiërarchie in kennisbronnen, andere meer kwalitatieve methoden zouden
‘zacht’ zijn en daarom inferieur. De bezwaren tegen streng effectiviteits-
onderzoek leveren al met al een impasse op waarbij voor en tegenstanders
met een zekere onverzoenbaarheid tegenover elkaar komen te staan.
De vraag is of dat nodig is. De auteurs wijzen in deze bundel uitwegen uit
de impasse. De eerste uitweg is die van het afstemmen van het onder-
zoeksdesign op de specifieke context en vraagstelling en op de fase van
beleidsontwikkeling. Als problemen nog niet helder zijn of interventies
nog niet uitontwikkeld, kan kwalitatief onderzoek nuttiger zijn dan een
grootschalig opgezet beleidsexperiment. In die zin hanteert OCW een
opvatting van methodisch pluralisme: verschillende situaties vragen om
verschillende methoden, die ook verschillende typen kennis opleveren.
De tweede uitweg is die van het stapelen, dat wil zeggen maak in opvol-
gende fasen van de beleidsontwikkeling gebruik van verschillende
designs. Ontwerp een zorgvuldige opbouw van onderzoek als je een
bepaalde beleidsinterventie wilt plegen als je nog niets of weinig weet over
de effecten van die interventie.
De derde uitweg is die van het combineren. Om de effecten van een

interventie goed te begrijpen, zijn verschillende typen kennis nodig. Dat
betekent dat we het beste verschillende methoden kunnen combineren en
dat we zowel kwalitatief als kwantitatief onderzoek nodig hebben.
In deze bundel laten auteurs vanuit diverse invalshoeken hun licht

schijnen op deze problematiek. Nadrukkelijk zijn auteurs vanuit verschil-
lende disciplines en met verschillende methodologische voorkeuren aan
het woord gelaten. Allereerst met het doel om te informeren: wat zijn de
sterke en zwakke kanten van de verschillende onderzoeksparadigma’s, wat
zijn precies de voorwaarden voor het kunnen verrichten van goed
experimenteel onderzoek? En hoe kunnen onderzoek en beleidsvorming
productief samen gaan?
Daarnaast willen we met deze bundel ook een bijdrage leveren aan het
voortdurende debat over de vraag met welk bewijs beleid en onderwijs
sterker kunnen worden. Als OCW zetten we in op een praktijk waarbij
experimenteel onderzoek in de beleids- en onderwijspraktijk routine is.
Alleen zo wordt lerend beleid mogelijk: eerst maatregelen praktisch testen
in experimenten voordat sprake is van een brede invoering.
Een cultuur waarin het uitvoeren van experimenteel onderzoek routine is,
beschikt over een breed palet van onderzoeksmethoden. Niet alle vragen
kunnen immers door middel van experimenteel onderzoek beantwoord
worden. Experimenteel onderzoek moet een essentieel onderdeel zijn van
ieder beleidsproces, maar ook andere kennisbronnen horen erbij. Als we
onze kennis van het onderwijs rijker, diepgaander en exacter maken
omdat we verschillende onderzoeksmethoden benutten, wordt uiteinde-
lijk ook het beleid rijker, dat wil zeggen beter doordacht, effectiever en
maatschappelijk breed gedragen.
Ik ben de auteurs zeer erkentelijk voor hun bereidheid om aan het

bereiken van dit doel, rijker beleid, een bijdrage te leveren.
01
Wetenschap en
onderwijsbeleid:
een liefdevolle LAT?
Wim Meijnen
Voorzitter NWO/PROO
&
Jo Kloprogge
Adviseur Sardes
1.1 Inleiding
In 1979 bundelde Van Kemenade enkele voordrachten die hij in de
voorafgaande jaren had gehouden. Daarbij waren uiteraard zijn ervaringen
als minister van Onderwijs (1972-1977) een belangrijke inspiratiebron. Eén
van de essays is getiteld: ‘Onderwijsresearch en Onderwijsbeleid’. Hij
constateert: ‘Ondanks die toenemende belangstelling van de sociale wetenschappen
voor onderwijs en onderwijsbeleid en van de beleidsinstanties op velerlei niveau voor de
sociaal-wetenschappelijke deskundigheid, is de relatie tussen onderwijsresearch en
onderwijsbeleid in vele opzichten onbevredigend’ (Van Kemenade, 1979, p.211/212).
Nu, dertig jaar later heeft deze uitspraak nog weinig aan geldigheid
ingeboet. De kern van het probleem ligt volgens hem in het feit dat door
beleidsinstanties, onderwijspraktijk en onderzoekers geen gericht
wetenschaps- en onderzoeksbeleid wordt gevoerd.
Inmiddels weten we, vele publicaties verder, dat de problemen fundamen-

teler van aard zijn. Zo verscheen in 1980 de later veel geciteerde publicatie
van Weiss waarin zij de invloed van sociaal wetenschappelijk onderzoek op
besluitvorming analyseerde. Zij komt tot de conclusie dat de belangrijkste
invloed indirect is en wel door agendasetting en ‘verwetenschappelijking’
van het denken over gedrag en samenleving. Dat zou zich onder meer
uiten in de inhoud van beleidsnota’s en in het publieke debat. De globale
notie van onderzoeksbevindingen wordt onderdeel van het algemeen
referentiekader en beïnvloedt volgens Weiss daarmee de besluitvorming.
Over de mogelijkheden van ‘social engineering’ door de sociale weten-
schappen, een veel rechtstreekser pad van researchresultaten naar
praktijkverbetering, is ze veel sceptischer. Een pad dat in de beta-weten-
schappen wel met succes wordt afgelegd. De keten van fundamentele
research via toegepast onderzoek en technologieontwikkeling naar
bijvoorbeeld gebruiksartikelen of valide geneeswijzen wordt daar
dagelijks met succes gedemonstreerd. We stuiten hiermee op oude
wetenschapstheoretische vragen binnen de sociale wetenschappen die
betrekking hebben op vraagstukken als determinisme en mogelijkheden
tot voorspelbaarheid van menselijk gedrag en maatschappelijke ontwik-
kelingen. De uiterste polen laten zich omschrijven als: ‘principieel
onmogelijk’ en ‘principieel mogelijk, maar we staan pas aan het begin’.
Hoewel er dus fundamentele problemen zijn aan te wijzen die mogelijk

verantwoordelijk zijn voor de kloof tussen onderzoeksresultaten in de
sociale wetenschappen en sociale technologie en dus ook tussen onder-
wijsonderzoek enerzijds en onderwijsbeleid en -praktijk anderzijds, is er
toch alle aanleiding te veronderstellen dat de kennisketen in het onderwijs
sterk verbeterd kan worden.
Broekkamp e.a. (2009) benoemen op basis van literatuuronderzoek vier
thema’s die in principe dekkend zijn om de kloof te beschrijven tussen
onderwijsonderzoek en de praktijk. Thema’s waarbinnen maatregelen te
treffen zijn om de kloof te verkleinen. De thema’s zijn:
1. De beperkte bewijskracht van onderwijsonderzoek. Een veelvoud aan factoren
zoals te weinig experimentele studies, een te gering budget, te weinig
controle over de onderwijsomgeving, onvoldoende competentie van
onderzoekers en botsende onderzoeksperspectieven zouden de
overtuigingskracht van onderzoeksresultaten schaden.
2. Het potentiële nut van onderwijsonderzoek. De inzetbaarheid van de resulta-
ten van onderwijsonderzoek is beperkt. Veel onderzoeksresultaten laten
zich niet één op één vertalen naar handelingsvoorschriften voor
potentiële gebruikers. De complexiteit en de unieke context die elke
onderwijssituatie kenmerkt, conflicteert met het standaardiseren van
handelingsvoorschriften voor potentiële gebruikers. Vereist is dus een
hoge mate van professionele deskundigheid van de afnemers.
3. Percepties van onderwijsonderzoek. Veel gebruikers hebben (onterecht) een
negatief beeld van de bruikbaarheid van onderwijsonderzoek.
4. Het gebruik van onderwijsonderzoek. Werkt de negatieve beeldvorming al
niet mee, het ontbreken van scholing in onderzoek waardoor men
onderzoeksartikelen niet kan lezen en daardoor niet op waarde kan
schatten, werkt als een barrière. Scholing verdient dus hoge prioriteit.
Een niet te onderschatten negatieve factor in de valorisatie van onder-

zoeksresultaten in de sector onderwijs die door hen niet is genoemd, is de
sterke verwevenheid van mensen maatschappijbeelden en de (veronder-
stelde) werking van pedagogische en onderwijskundige praktijken. Vrijwel
alle ouders, maar ook volwassenen zonder kinderen, hebben uitgesproken
oordelen over hoe kinderen moeten worden opgevoed of onderwezen.
Oordelen die sterk samenhangen met hun mensen maatschappijbeeld.
En er is veel sociale druk nodig om hen van standpunt te doen veranderen.
Illustratief in deze is de heftige discussie die publiekelijk, tot in het

parlement toe, over de voor- en nadelen van ‘het nieuwe leren’ zijn
gevoerd. Hilhorst (www.vo-raad.nl/assets/2476) beschrijft in een essay hoe
achter de argumenten pro en contra, mensbeelden schuilgaan die met
verve worden verdedigd. Vaak wordt niet de empirische evidentie van de
praktijken van de ‘tegenstander’ bekritiseerd maar het veronderstelde,
achterliggende, mensbeeld. Onderzoeksresultaten worden dan niet meer
op hun merites beoordeeld. Ze fungeren niet als scheidsrechter maar
worden direct ‘ontmaskerd’ als behorend bij een specifiek mensbeeld en
zijn dus per definitie niet objectief.
Een analyse van de relatie tussen onderwijsbeleid en onderwijsresearch
dient met deze factoren rekening te houden en het is dus verre van
duidelijk hoe deze relatie er op termijn uit zou kunnen zien. Dat laat
onverlet dat aan de kennisketen in het onderwijs nog veel verbeterd kan
worden.
Het ministerie van Onderwijs kan door tal van bestuurlijke instrumenten
invloed uitoefenen op het functioneren van deze kennisketen. In deze
bijdrage zal getracht worden in grote lijnen een beeld te schetsen hoe de
overheid in de afgelopen vijftig jaar de kennisketen mede heeft vorm
gegeven. Voorts zal exemplarisch, middels twee casussen, worden
beschreven hoe het ministerie onderzoeksresultaten in zijn beleid
verdisconteert en hoe het beleid heeft uitgewerkt. Beide casussen
verschaffen inzicht in de lange weg van onderzoeksresultaten, planning en
uitvoering van beleid naar de uitvoeringspraktijk in scholen en klassen.
Aan het eind van deze bijdrage zullen enkele suggesties worden gedaan
om de kloof te verkleinen die zijn terug te voeren op één der bovenge-
noemde thema’s. In het bijzonder zal daarbij worden gewezen op de rol die
het ministerie van Onderwijs daarbij kan spelen.
1.2 Historie van de kennisketen in het onderwijs

De keten onderzoek-ontwikkeling-verspreiding kent geen waterscheidin-
gen, ook in de fase van ontwikkeling is onderzoek nodig evenals in de
verspreidingsfase. Institutionele verkaveling van de drie componenten
voor de onderwijssector heeft in Nederland in de jaren zestig en zeventig
van de vorige eeuw zijn beslag gekregen. Institutionele verkaveling leidt
echter vaak tot usurpatie: onderzoeksinstituten die ook aan ontwikkeling
en verspreiding doen, ontwikkelingsinstituten die ook een afdeling
onderzoek en voorlichting kennen etc. In deze bijdrage zullen we focussen
op de institutionele kaders voor onderzoek en slechts in het kort iets
opmerken over andere instituties in de keten.
1.2.1 De adviesstructuur in basis- en voorgezet onderwijs

Aan het eind van de jaren veertig van de vorige eeuw nam de belangstel-
ling voor vernieuwing van het onderwijs en de daarbij noodzakelijke
professionele ondersteuning toe. De initiatieven kwamen voornamelijk
voort uit lerarenorganisaties die zich onderscheiden naar schooltype en
levensbeschouwelijke richting (Tromp, 1997). Dat resulteerde in de jaren
zestig en zeventig in drie landelijke, door de overheid gesubsidieerde
centra gericht op het voortgezet onderwijs: een algemeen (APS), een
katholiek (KPC) en een christelijk (CPS) pedagogisch studiecentrum.
Daarnaast ontstond er een landelijk dekkend netwerk van lokale en
regionale adviescentra voor het basisonderwijs. Deze centra werden
verondersteld prominente intermediairs te worden tussen wetenschap en
praktijk. Adviezen aan scholen zouden mede worden gegeven op basis van
de meest relevante en recente verworvenheden uit de onderwijsresearch.
Rekrutering van medewerkers vond in den beginne vooral plaats onder
praktijkmensen met veel ervaring. Later werd een academische voor
opleiding een gangbare eis.
Ten gevolge van een volledige subsidiëring door de rijksoverheid waren

met name de adviescentra voor het basisonderwijs vrijwel autonoom in
het vaststellen van hun aanbod aan de basisscholen. De landelijke
adviescentra voor het voortgezet onderwijs kregen in de loop der tijd tot
taak een deel van hun activiteiten te richten op door het beleid bepaalde
prioriteiten. Het aanbodgestuurde karakter van de activiteiten van alle
adviescentra is door de jaren heen veranderd in vraaggestuurd omdat
subsidies voor een belangrijk deel naar de scholen zijn overgeheveld.
De adviescentra voor het basisonderwijs zijn vaak relatief klein van

omvang en kennen – op enkele uitzonderingen na - geen eigen onder-
zoeksafdelingen. De Landelijke Pedagogische Centra voor het voortgezet
onderwijs daarentegen zijn afzonderlijk van een behoorlijke omvang en
hebben in het verleden een (gedeeltelijke) taakverdeling afgesproken.
Recentelijk hebben ze in een gemeenschappelijk document de
Research&Development-functie van de drie instellingen beschreven
(VSLPC, 2008). In dit document wordt over de relatie tussen de R&D-
functie en de wetenschap onder meer het volgende opgemerkt: ‘De
wetenschappelijke methode en resultaten houden altijd een reductie in van de
werkelijkheid. Deze werkelijkheid, zeker die van het onderwijs, is veel complexer, rijker
en pluriformer dan de wetenschap ooit zal kunnen bevatten. Wetenschap richt zich
bovendien altijd op de bestaande werkelijkheid en niet op een mogelijke nieuwe
werkelijkheid. Aan een R&D-functie die zich met name richt op het innovatieve kan de
wetenschap dus slechts bescheiden bijdragen. Wetenschap is tenslotte geen doel maar
middel: het moet leraren en beleidsmakers helpen bij het realiseren van goed onderwijs’
(p. 11).
In de inleiding van het genoemde document (p.3) wordt opgemerkt dat

over de kaders van dit gezamenlijke beleid overleg is geweest tussen
diverse instellingen en het ministerie van Onderwijs (LPC’s, OCW,
VO-Raad, PO-Raad, SLO en CITO). Opmerkelijk is de afwezigheid van
universitaire organisaties en NWO, geheel in lijn met de strekking van het
voorafgaande citaat.
1.2.2 Curriculum- en toetsontwikkeling

Aanvankelijk waren voor de Stichting voor Onderzoek van het Onderwijs
(SVO) die in 1965 was opgericht, ook activiteiten in de sfeer van toetsen
curriculumontwikkeling gepland. Al spoedig bleek dat begrenzing
noodzakelijk was en dat voor op zichzelf staand onderzoek, of met
onderzoek samenhangend ontwikkelingswerk ten behoeve van een
bepaald onderwijsaspect, gespecialiseerde instituten noodzakelijk waren.
In 1968 kwamen daarom een landelijk centrum voor toetsontwikkeling

(CITO) en in 1976 een landelijk expertisecentrum voor leerplanontwikke-
ling (SLO) tot stand, gesubsidieerd door het ministerie van Onderwijs.
Later komen daar nog tal van expertisecentra bij, soms van tijdelijke, soms
van min of meer permanente aard. Met betrekking tot de laatste categorie
valt te denken valt aan het Freudenthal Instituut voor het rekenonderwijs
en het Expertisecentrum Beroepsonderwijs (CINOP). Onder de eerste
categorie valt bijvoorbeeld het Expertisecentrum voor Ontwikkeling,
Opvoeding en Onderwijs voor 0- tot 12-jarigen (EC O3) dat in 2008 werd
ingericht door de ministeries van OCW, VWS en SZW om de verbinding
tussen onderzoek en de sector voor 0- tot 12-jarigen te versterken.
1.2.3 Onderwijsonderzoek
Het tijdperk voorafgaande aan de SVO
Begin jaren zestig begon de ‘constructieve’ periode van het onderwijsbe-
leid, waarbij de overheid niet meer volstond met het verdelen van
financiële middelen (allocatief beleid) maar de ontwikkeling van het
onderwijs actief probeerde te beïnvloeden. De vraag naar onderzoek nam
hierdoor snel toe. Uit een potje van de afdeling Research en Onderzoek op
het ministerie van Onderwijs en Wetenschap konden onderzoeken worden
gefinancierd. De regel was dat wie het eerst vroeg, het meest kreeg.
Halverwege het jaar was het geld op. Er ontstond behoefte aan een meer
gerichte benadering. Mede onder invloed van invloedrijke hoogleraren als
A.D. de Groot en Ph. Idenburg werd besloten de behartiging van het
onderwijsonderzoek te verzelfstandigen in een stichting (Van Kemenade
e.a., 1986). Gelijktijdig werden de geldmiddelen voor onderwijsresearch
verruimd. In 1965 werd aldus de Stichting voor Onderzoek van het
Onderwijs opgericht, na uitvoerige discussie over de vraag of deze
stichting moest worden gezien als een adviesorgaan of als een beleidsor-
gaan. De spanning tussen deze beide insteken, met als kernvraag hoe
onafhankelijk het door het ministerie gefinancierde onderzoek mocht
zijn, heeft SVO gedurende zijn hele bestaan achtervolgd.
Het SVO-tijdperk
De Stichting voor Onderzoek van het Onderwijs had als doelstelling het
bevorderen van onderzoek met betrekking tot het onderwijs. Dit hield in
het steunen, doen uitvoeren, coördineren en anderszins bevorderen van
wetenschappelijk onderzoek met betrekking tot het onderwijs. Later
kwam daar bij het publiek maken van onderzoeksresultaten door het
verspreiden van persberichten, brochures en (vanaf 1970) het nog steeds
florerende maandblad Didaktief. SVO mocht dus zelf géén onderzoek
uitvoeren. Men hield zich bezig met programmering, financiering en
disseminatie van onderzoek. De uitvoering van het onderzoek geschiedde
overwegend door de aan SVO gelieerde para –universitaire instituten zoals
ITS, SCO- Kohnstamm Instituut, RION (later GION), ISOR, LISBO en door
universitaire vakgroepen. De werkwijze van SVO werd in de loop der jaren
regelmatig bijgesteld.
Nieuwe statuten traden in werking in 1982, waarbij de oorspronkelijke

bestuursstructuur van een college van wetenschappers werd omgebouwd
tot een grote representatieve raad met zowel vertegenwoordigers van de
onderwijskoepels als van het onderwijsveld en een waarnemer namens
het ministerie.
In 1987 werd de Wet op de onderwijsverzorging (WOV) ingevoerd, de eerste

wettelijke regeling met betrekking tot de verzorgingsinstellingen. Daarbij
werd SVO getransformeerd van een privaatrechtelijke stichting tot een
publiekrechtelijk instituut en dus tot een overheidsinstelling. Overheid en
veld kregen elk 40% van het onderzoeksbudget toegewezen (zij mochten
de vragen stellen voor onderzoek) en de resterende 20% werd gereserveerd
voor fundamenteel onderzoek. Bij het SVO-bureau in Den Haag werkten in
de jaren tachtig en negentig van de vorige eeuw ongeveer veertig mede-
werkers. In het gehele door SVO aangestuurde onderzoekscircuit werkten
ongeveer tweehonderdvijftig onderzoekers. De omzet van SVO bedroeg
doorgaans rond de twintig miljoen gulden met een piek van dertig
miljoen in 1978.
SVO volgde een vaste procedure om onderzoeksprogramma’s te ontwik-

kelen of te actualiseren. Jaarlijks werd aan alle belangrijke stakeholders in
het onderwijsbeleid en in het onderwijsveld gevraagd om aan te geven
welke thema’s zij onderzocht zouden willen hebben. Daarna werd een
thema onderworpen aan een probleemverkenning. Een of meer experts
beschreven de stand van zaken en de ontwikkelingen binnen het betref-
fende thema, inclusief een overzicht van de onderzoeksliteratuur (vooral
gericht op Nederlandse en Engelstalige publicaties), en gaven aan wat
onderzoek zou kunnen bijdragen een de oplossing van problemen op het
betreffende thema. SVO selecteerde vervolgens op basis van de probleem-
verkenning thema’s voor onderzoek voor het komende jaar.
In 1983 werden zo probleemverkenningen uitgevoerd op de terreinen;

■■ basisonderwijs
■■ speciaal onderwijs
■■ voorgezet onderwijs eerste fase
■■ voortgezet onderwijs tweede fase
■■ hoger onderwijs en lerarenopleidingen
■■ volwasseneneducatie/levenslang leren
■■ gelijke-kansenonderwijs (incl. emancipatie-onderwijs)
■■ etnische minderheden in het onderwijs
■■ overgang van school naar werk
■■ gebruik van computers in de school
In 1984 werden toegevoegd;

■■ de onderwijsverzorgingsstructuur
■■ onderwijswetgeving en bestuur
In 1986 kwam daarbij;

■■ economische aspecten van het onderwijs
Na vaststelling van het onderzoekprogramma nodigde SVO de aan haar

gelieerde onderzoeksinstituten uit om voorstellen in te dienen voor elk
specifiek thema uit het onderzoekprogramma. Deze voorstellen werden
beoordeeld door beoordelingscommissies. Het SVO-bestuur besliste over
de definitieve toekenning aan een der indieners. De meeste projecten
werden uitgevoerd in twee tot drie jaar. De onderzoeksrapportages
werden onderworpen aan een eindbeoordeling. De disseminatie van de
onderzoeksresultaten gebeurde onder meer door aandacht in het
tijdschrift Didaktief.
Behalve het reguleren van onderzoeksprojecten zoals hierboven omschre-

ven, was SVO actief in het onderhouden van contacten met internationale
onderzoeksorganisaties en voerde zij beleid om jonge onderzoekers te
rekruteren en de kans te geven zich te ontwikkelen.
Hoewel de relaties met het ministerie van Onderwijs, de onderwijsorgani-
saties en de onderzoeksinstituten formeel goed waren geregeld, was er
weinig steun voor SVO toen de regering in 1996 besloot het bestaan van
SVO te beëindigen. Op het departement werd SVO beschouwd als een
arrogante bureaucratische moloch die niet in staat was snel en flexibel op
vragen te reageren. Men wilde liever zelf greep houden op de vraag
stellingen en uitvoering van onderzoek.
Topambtenaren spraken over SVO als het ‘instituut voor hetelucht

verplaatsing’. Het onderwijsveld stond vrij lauw tegenover SVO en dat had
te maken met kritiek uit scholen, die het onderzoek weinig praktisch
bruikbaar vonden en klaagden over de belasting die het meewerken aan
onderzoek met zich meebracht. Ook de onderzoeksinstituten stonden
uiteindelijk niet op de bres voor SVO, mede omdat zij afwilden van de
afhankelijkheidsrelatie met deze machtige organisatie die hun eigen
beleid soms frustreerde. Per 1 december 1996 kwam er daarom een einde
aan deze fase in het onderwijsonderzoek
De post-SVO periode
De beschikbare gelden voor onderzoek werden vanaf 1997 op een nieuwe
manier verdeeld. Daarbij werd de bij SVO gehanteerde verdeling over
beleidsonderzoek, veldonderzoek en fundamenteel onderzoek aan
gehouden. Het grootste deel van de middelen ging naar NWO, de
Nederlandse Organisatie voor Wetenschappelijk Onderzoek.
De Programmaraad voor Onderwijsonderzoek (NWO/PROO) werd
opgericht om fundamenteel onderwijsonderzoek te programmeren en tot
uitvoering te brengen. De keuze van programmalijnen komt tot stand na
overleg met wetenschappers, het onderwijsveld en het ministerie.
Vervolgens wordt voor elke programmalijn een kader uitgewerkt waarbin-
nen universitaire wetenschappers een onderzoeksplan kunnen indienen.
Uit een recente evaluatie van de PROO blijkt dat de universitaire vak
groepen onderwijskunde zeer geprofiteerd hebben van de werkwijze van
de PROO. Hun productie is voor een groot deel gebaseerd op de onder-
zoekssubsidies die zij via de PROO hebben verworven (NWO/PROO, 2009).
Ook het meer beleidsgerichte onderzoek voor het primair onderwijs werd
ondergebracht bij NWO onder de titel BOPO (Beleidsgericht Onderwijs
onderzoek Primair Onderwijs). De BOPO programmeert onderzoek op een
aantal beleidsterreinen van het primair onderwijs. Men laat hiervoor
programma’s schrijven door onderzoekers, die worden aanbesteed bij
vooral universitaire onderzoeksinstituten. Voor de periode 2009-2012
heeft de BOPO ook de opdracht om het evaluatieonderzoek naar de
hoofdlijnen van het beleid voor het primair onderwijs te programmeren,
te doen uitvoeren, te begeleiden en te communiceren.
Bij de opheffing van SVO ging verder een deel van het geld terug naar het
ministerie voor beleidsonderzoek en werd een deel beschikbaar gesteld
aan de Landelijke Pedagogische Centra. De KPC Groep is belast met de
dagelijkse uitvoering. Er worden in dit kader onderzoeksvragen geïnventa-
riseerd bij scholen, waarna een kaderplan en onderzoekprogramma wordt
geformuleerd. De onderzoeksopdrachten worden, in samenwerking met
de betreffende scholen, uitgevoerd door geselecteerde onderzoekinstitu-
ten. Jaarlijks kunnen tot 1 september hier aanvragen voor onderzoek
worden ingediend.
In een brief aan de Tweede Kamer van 12 juni 2009 maakt de minister het
voornemen bekend om naar aanleiding van de evaluatie van de PROO het
convenant met NWO per 1 januari 2010 aan te passen en daarnaast de hele
sector van het onderwijsonderzoek in kaart te laten brengen. Het gaat er
daarbij om zowel de wetenschappelijke waarde van de onderwijsweten-
schappen als geheel in kaart te brengen als ook de maatschappelijke
waarde. Dit moet leiden tot een sectorplan onderwijsonderzoek.
Er is een tendens dat steeds meer onderzoek gericht op cruciale aspecten

van het onderwijsbestel niet via de in 1997 geschapen kanalen loopt, maar
rechtstreeks door het ministerie wordt gefinancierd. Voorbeelden daarvan
zijn onderzoeksprogramma’s als ‘Onderwijsbewijs’ (€ 25 miljoen voor
2007 tot 2010!), onderzoeksinstituten als TIER en onderzoeksgedreven
innovatieprogramma’s als ‘Durven, Delen, Doen’.
Door het fenomeen internet is de verspreiding van onderzoeksresultaten
in een stroomversnelling geraakt. Tal van instellingen hebben op hun
website links naar onderzoek dat voor hen van belang is. Onderzoek van
zeer ongelijksoortige aard. Dat doet dan weer de vraag rijzen naar ‘portals’
met ordeningscriteria voor aard en kwaliteit van onderzoek.
1.3 Het gebruik van wetenschappelijke kennis door het

beleid: twee voorbeelden
Het gebruik van onderzoeksresultaten kan per type gebruiker worden
beschreven. In deze bijdrage concentreren we ons op het gebruik door de
rijksoverheid. Louter om pragmatische redenen. Een systematische en
grondige analyse vergt een meerjarig onderzoek en om deze redenen
beperken we ons tot het beschrijven van twee omvangrijke beleidspro-
gramma’s waarbij onderzoek een rol is toebedeeld. Te weten het ‘achter-
standenbeleid’ en het ‘beleid met betrekking tot de groepsgrootte in het
basisonderwijs’.
1.3.1 Achterstandenbeleid
De landelijke evaluatie van het onderwijsvoorrangsbeleid vond plaats van
augustus 1986 tot medio 1997. Dit evaluatieprogramma was met een
jaarlijks budget van anderhalf miljoen gulden in die periode een van de
meest omvangrijke in de sociale sector. Aanleiding tot de inrichting van
een zo omvangrijke evaluatie was de politieke discussie over de voortzet-
ting van het onderwijsachterstandenbeleid in de jaren 1984 tot 1986. Na
ampele overwegingen werd besloten dit beleid in vernieuwde vorm voort
te zetten, maar om het daarbij wel te doen vergezellen door een stevige
evaluatie. Hoewel de evaluatie in 1997 werd beëindigd, zijn belangrijke
onderdelen tot op heden nog operationeel. De cohortstudies die werden
opgezet in het evaluatieprogramma als LEO (landelijke evaluatie
onderwijsvoorrangsbeleid)-cohorten zijn later in de vorm van de PRIMA-
cohorten en nu als ‘Cool 5-18 cohort’ nog steeds terug te vinden. In de
oorspronkelijke LEO- cohorten werden jaarlijks 40.000 kinderen in groep
vier, zes en acht van de basisschool getoetst op taal en rekenen en gevolgd
in hun schoolloopbaan. Een aansluitend cohort was er voor het voortgezet
onderwijs. De ontwikkeling van kinderen uit de doelgroepen van het
beleid, zowel autochtone als allochtone achterstandsleerlingen, kon zo
worden gevolgd, vergeleken met die van andere kinderen en gerelateerd
aan factoren variërend van de inzet van faciliteiten in de scholen tot de
kwaliteit van de leerkracht en het ondersteunend gedrag van ouders in de
thuissituatie.
De aansturing van het evaluatieprogramma is gedurende de looptijd vrij

constant geweest. Het werd begeleid en aangestuurd door een
Projectgroep Evaluatie OVB, onder voorzitterschap van prof. N. Lagerweij,
en gecoördineerd door drs. J. Kloprogge, op basis van afspraken tussen het
ministerie van Onderwijs en de Stichting voor Onderzoek van het
Onderwijs. De uitvoering gebeurde door een aantal onderzoeksinstituten,
deels op basis van meerjarige afspraken, deels via aanbesteding met
beoordeling door een wetenschappelijke commissie.
Het was de bedoeling dat de evaluatie bruikbare wetenschappelijke kennis

en inzichten zou opleveren voor zowel het onderwijsbeleid als het
onderwijsveld. Er werd daarom steeds een deel van het budget gereser-
veerd om de onderzoeksresultaten te verspreiden richting beleid en
onderwijsveld, maar ook richting een breder publiek. Door de landelijke
en ook regionale pers werd aan de resultaten van onderzoeken in het
kader van de evaluatie regelmatig aandacht besteed. Een aantal publicaties
richtte zich verder meer specifiek op de onderzoekswereld, waarbij ook in
Engelstalige wetenschappelijke tijdschriften werd gepubliceerd.
De pogingen om de opbrengsten van het evaluatieprogramma indringend

onder de aandacht te brengen van beleid en onderwijs- (en welzijns-) veld
werden geïnspireerd en ondersteund door een artikel van Eleanor
Chelimsky (1987), de toenmalige directeur van de ‘program evaluation and
methodology division’ van het General Accounting Office in Washington.
In dit artikel gaat zij onder meer in op vraagstukken rond de ontwikkeling
van de beleidsvraag, de vertaling van de beleidsvraag in evaluatievragen,
de vertaling van de evaluatievraag in de evaluatie, de vertaling van de
evaluatieresultaten in antwoorden voor het beleid en het gebruik van
evaluatieresultaten en genereren van nieuwe beleidsvragen. De dissemi-
natie van de onderzoeksresultaten gebeurde via jaarlijks gepubliceerde
korte beleidsrapportages (de ‘blauwe boekjes’) van ongeveer vijfentwintig
pagina’s, persberichten en persconferenties, grote conferenties, artikelen
in Nederlandse en internationale tijdschriften, spreekbeurten en
optredens voor radio en soms tv en kleine specialistische symposia. Het
blijft echter moeilijk om te bepalen hoeveel invloed de evaluatie op het
beleid heeft gehad. Sommige aanbevelingen, bijvoorbeeld om de scholen
te informeren hoeveel extra formatie zij kregen vanuit het onderwijsvoor-
rangsbeleid of om de vrijblijvendheid bij de inzet van middelen te
beperken, werden vrijwel jaarlijks vruchteloos herhaald. Op andere
punten volgde het beleid wel de evaluatie.
Belangrijke voorbeelden zijn;

■■ Het gebruik van toetsen in het onderwijs. In de periode 1978-1986 waren
toetsen ‘not done’ in de scholen, het evaluatieprogramma realiseerde

hier een doorbraak.
■■ Hernieuwde aandacht voor taal en rekenen. Onderzoeken van rond 1980
laten zien dat in deze periode nog slechts tien tot 15% van de leerkrach-
ten en directeuren in het basisonderwijs hier belang aan hechtte.
■■ Grotendeels ongedaan maken van een grote bezuiniging op het beleid
door het ministerie van WVC (nu VWS) in 1987.

■■ De aanpassing van de criteria voor het leerlinggewicht 1,25 waardoor de
faciliteiten effectiever werden toegekend.

■■ Het expliciteren en aanscherpen van de doelstellingen van het over-
heidsbeleid. Tot 1986 gebeurde dit in nogal vage en niet te operationali-

seren termen zoals het verbeteren van ontwikkelingskansen. Later
werden basisvaardigheden en schoolloopbaanverbetering als concrete
doelen benoemd.
Sommige politiek-verantwoordelijke bewindslieden gaven expliciet te

kennen het evaluatieprogramma als een proefballon voor hun beleid te
zien. Als de evaluatie bepaalde aanbevelingen deed die goed werden
ontvangen, konden zij met hun beleid veilig volgen.
Hoewel er dus wel degelijk invloed uitging van de evaluatie op het beleid,
was de invloed richting veld sterker. Kloprogge merkte in 1996 op ‘Eigenlijk
was het een beleidsonderzoek, maar de scholen hebben er meer consequenties aan
verbonden dan het beleid zelf’. Hierbij is op te merken dat de aan het onderzoek
deelnemende scholen tweejaarlijks een rapportje kregen waarin ze de
toetsresultaten van hun eigen kinderen konden vergelijken met de van
andere scholen en met landelijke gemiddelden. Dit had een grote impact
op het beleid van veel scholen, al was deze terugrapportage zeker in de
beginperiode zeer omstreden.
Aan het eind van de evaluatie zijn twee retrospectieve publicaties

uitgebracht, waarin op allerlei aspecten van deze grootschalige evaluatie
wordt gereflecteerd. De dringende aanbeveling in de afrondende brochure
uit 1997 om ook in de toekomst cohortstudies te blijven uitvoeren, met
longitudinale en cross-sectionele vergelijkingsmogelijkheden, is in ieder
geval in goede aarde gevallen. Op basis daarvan zijn longitudinale analyses
gemaakt over de ontwikkelingen van de prestaties van achterstandsleer-
lingen tussen 1988 en 2002. Deze zijn afgezet tegen de ontwikkelingen van
de ‘gemiddelde leerling’. Uit de analyses blijkt dat met name de allochtone
leerlingen hun achterstand enigszins inlopen. Helaas geldt dat niet voor
de autochtone leerlingen (Mulder e.a., 2005).
Deze resultaten geven niet het definitieve antwoord op de vraag of de

verbeteringen uitsluitend zijn toe te schrijven aan het achterstandenbe-
leid. Tal van andere, niet te isoleren factoren kunnen mede van invloed
zijn geweest op de geconstateerde ontwikkelingen. Ook niet de ontwikke-
lingen die een eventuele achteruitgang hebben veroorzaakt. Een gerando-
miseerde experimentele opzet had wellicht daar meer zicht op kunnen
bieden. Een experiment waarin bijvoorbeeld in 1987 het vigerende
achterstandsbeleid moest worden gestopt om vervolgens gedurende vijf
jaar aan honderd aselect gekozen scholen wel weer een budget toe te
kennen en de effecten te vergelijken met een controlegroep van honderd
aselect gekozen scholen, is waarschijnlijk nooit overwogen.
1.3.2 Beleid met betrekking tot de groepsgrootte in het basisonderwijs

De discussie over de gewenste groepsgrootte in het onderwijs is van alle
tijden. De stelling ‘hoe kleiner, hoe beter’ lijkt daarbij opgeld te doen.
Hoewel, pleidooien voor groepen kleiner dan twaalf worden zelden
gehoord. Als het om investeringen in het onderwijs gaat waarbij algemene
maatregelen aan de orde zijn om de kwaliteit te verbeteren, dan zijn er
steeds twee onderwerpen die er uitspringen: lerarensalarissen en
groepsgrootte. Het is dan ook niet verwonderlijk dat met name economen
zich in het verleden veelvuldig met deze twee zaken hebben bezig
gehouden. Leiden hogere salarissen tot beter onderwijs en daardoor tot
betere leeropbrengsten? Leiden kleinere klassen tot betere
leeropbrengsten?
De onderzoeksresultaten met betrekking tot de groepsgrootte waren tot

in de tweede helft van de negentiger jaren niet eensluidend (Bosker,
Blatchford & Meijnen, 1999). Op geaggregeerd niveau, het onderzoek dat
veelal door economen werd uitgevoerd, werd zelden een verband
aangetroffen tussen groepsgrootte en leerresultaten. Toegespitste
analyses waarbij ook de uitkomsten van experimenten werden betrokken,
duidden in die tijd daarentegen soms wel op een positief verband.
Discussies over groepsgrootte steken periodiek de kop op. Zo ook in 1995.

De media stortten zich op het onderwerp en ook in het parlement groeide
de overtuiging dat een majeure stap moest worden gezet. In het voorjaar
van 1966 werd de Commissie Van Eijndhoven geïnstalleerd, die in oktober
van dat jaar haar advies uitbracht. Onderdeel van het advies waren
analyses die de commissie had laten verrichten op de data van het
PRIMA-cohort onderzoek. Een algemeen en duidelijk positief verband
werd niet gevonden, wel samenhang in leerjaren met jonge leerlingen
(Bosker, Blatchford & Meijnen, 1999)1.
Gegeven de vrijheid van scholen om formatie in te zetten naar eigen

inzicht zou een algemene verhoging in formatietoekenning heel divers
kunnen uitvallen. Groepsgrootteverkleining zou een mogelijke uitkomst
kunnen zijn, maar was niet gegarandeerd. Gelet op de uitkomsten van de
analyse op de PRIMA-cohort data en uitkomsten van ander onderzoek,
komt de commissie tot het advies de extra middelen te oormerken: een
groepsgrootte van maximaal vijfentwintig voor de onderbouw en
vierendertig voor de bovenbouw. Scholen zouden dit kunnen realiseren als
zij bekostigd zouden worden voor één leraar op twintig leerlingen in de
onderbouw en één op achtentwintig in de bovenbouw. De commissie stelt
voor de eerste maatregelen voor de onderbouw te laten ingaan per 1
augustus 1997. De maximale klassengrootte in zowel de onder- als de
bovenbouw kan dan binnen vijf jaar worden gerealiseerd. Dit vergt naar
schatting van de commissie een financiële impuls van circa 175 miljoen
gulden in 1997 oplopend tot ruim 1.1 miljard gulden in 2001.
In een persbericht van het ministerie van Onderwijs laat staatssecretaris

Netelenbos weten ‘verheugd te zijn dat nu de relatie tussen de kwaliteit van het
onderwijs en de groepsgrootte is vastgesteld. Dat is een belangrijk gegeven in de verdere
plannen die ontwikkeld worden om de kwaliteit van het onderwijs te verbeteren’
(ministerie van OCW, 22-10-1996). Daarop is een beleidstraject gevolgd,
getiteld ‘Groepsgrootte en kwaliteit’ eindigend in een wijzigingswet op
het primair onderwijs ingediend in het voorjaar van 1999. In de Memorie
van Toelichting valt te lezen: ‘In 1996 stelde de commissie Van Eijndhoven in het
advies ‘Klassenverkleining’ voor om een wettelijk maximum aan de omvang van de
groepen te stellen. De regering kiest niet voor zo’n wettelijk maximum, omdat dit in de
praktijk ongewenste effecten kan hebben’ (TK, 12-05-1999, kamerstuk 26513). De
extra toe te voegen formatie dient echter wel uitsluitend aan de vier- tot en
met zevenjarigen ten goede te komen maar hoeft niet te worden vertaald
in de toename van groepsleerkrachten. Meer onderwijsassistenten, extra
remedial teaching of extra management voor de onderbouw is ook
toegestaan. Groepsgrootteverkleining voor de acht- tot twaalfjarigen
wordt om budgettaire redenen voorlopig niet doorgevoerd.
Van het oorspronkelijke advies is derhalve aanzienlijk afgeweken en ook

van de randvoorwaarden van de beloftevolle experimenten die door de
onderzoekers waren gerapporteerd. Een en ander als gevolg van de steeds
sterker wordende beleidsfilosofie dat de scholen meer beleidsruimte
1
Noot: een heranalyse enkele jaren later door andere onderzoekers en middels een andere
methodiek, leverde daarentegen nul-resultaten op voor de jongste groep en enigszins
positieve voor leerjaren in de middenbouw (idem).
zouden moeten krijgen. De oormerking van de middelen, zoals door de
commissie Van Eijndhoven voorgesteld, zou daarop een te forse inbreuk
betekenen. Niet verwonderlijk is daarom vier jaar later ook de oormerking
voor de onderbouw geheel losgelaten.
In de loop der tijd zijn er vele voortgangsrapportages over het project

verschenen evenals wetenschappelijk onderzoek naar het implementatie-
proces. In de tiende voortgangsrapportage uit februari 2003 (ministerie
van OCW, 2003) wordt gemeld dat ten opzichte van vóór de start van het
project een daling is gerealiseerd van 2.8 leerlingen in de onderbouw.
Naast de reguliere groepsleraar wordt de formatie van de onderbouw ook
ingezet voor onderwijsassistenten, vakleerkrachten, remedial teachers en
coördinatoren onderbouw. De verhouding tussen het aantal leerlingen en
het aantal personeelsleden ligt twee leerlingen lager dan de gemiddelde
groepsgrootte. De rapportage vermeldt verder dat de daling van het aantal
leerlingen een positief effect heeft op de onderwijskwaliteit omdat de
leerkrachten het didactisch handelen beter kunnen afstemmen op de
individuele behoefte van de leerlingen. Ook zouden zwakke leerlingen en
zeer goede leerlingen baat hebben bij kleinere groepen en zou de
aantrekkelijkheid van het beroep van leerkracht zijn toegenomen.
Bijna tien jaar na de start van het beleid ‘Groepsgrootte en Kwaliteit’ is

onderzocht wat de gevolgen zijn van de verschillende manieren waarop
scholen hun formatie inzetten op het onderwijs en op de ontwikkeling
van onderbouwleerlingen (Doolaard & Bosker, 2006). De onderzoekers
rapporteren in hun samenvatting dat in kleine groepen twee en drie, met
minder dan achttien leerlingen, en in groepen met extra hulp het
onderwijs adaptiever lijkt te zijn dan in grotere groepen. Er wordt meer in
kleinere groepen en individueel gewerkt en er is meer interactie. Vooral
drukke leerlingen profiteren van extra hulp; zij krijgen meer aandacht
waardoor zij taakgerichter zijn. Maar, er is ook een keerzijde: er zijn ook
meer leerlingen die onbegeleid zijn of niet werken, er wordt meer gepraat
over dingen die niet met het werk te maken hebben. Het lijkt in deze
groepen wat onrustiger. In groep twee zijn leerlingen dan ook minder
taakgericht als er extra hulp is. In groep drie is de groepsgrootte doorslag-
gevend: hoe kleiner de groep hoe taakgerichter de leerlingen. Dit werkt
door op de leerlingprestaties. In een groep drie van ‘medium’ grootte,
twintig à eenentwintig leerlingen, zijn de rekenprestaties significant beter
dan in grotere groepen. Voor taal geldt dezelfde tendens. De positieve
invloed houdt zelfs stand in groep vier. Groepen drie met minder dan
twintig leerlingen hebben wel een positief effect op de prestaties, maar dit
weegt niet op tegen de extra kosten die dat met zich meebrengt. De
negatieve invloed van de extra hulp in groep twee op de taal- en reken-
prestaties lost in groep drie weer op, maar roept wel de vraag op hoe de
extra hulp beter benut zou kunnen worden. Zeer kleine en zeer ‘zwarte’
scholen waren niet in dit onderzoek meegenomen.
Ook dit onderzoek geeft in strikte zin geen antwoord op de effecten van
het uitgevoerde beleid als het gaat om het didactisch handelen van de
leerkracht en de leeropbrengsten. Een experimentele opzet met variatie in
modellen van formatie-inzet had ook hier meer inzicht kunnen opleveren.
Bosker en Meijnen hebben in 1997 daartoe een onderzoeksvoorstel bij het
ministerie van OCW ingediend. Honorering van het voorstel zou wel
inhouden dat de landelijke uitrol van het beleid met minimaal twee jaar
zou moeten worden opgeschort. Het voorstel heeft in de besluitvorming
nooit een rol gespeeld.
De casus ‘Achterstandsbeleid’ leert dat de onderzoeksresultaten in dit

geval vooral in formatieve zin gebruikt worden, te weten bijsturing van het
beleid. De resultaten hebben tot nu toe niet geleid tot een discussie over
het al of niet beëindigen van het beleid. Integendeel, er wordt in toene-
mende mate gezocht naar een efficiëntere inzet van middelen dan wel naar
alternatieve impulsen. Te denken valt aan de intensivering van de voor- en
vroegschoolse educatie, het inrichten van schakelklassen enzovoorts.
Experimenteel onderzoek, met de daarbij behorende beleidsingrepen, dat
gegevens zou opleveren over de netto-effecten van het beleid, wordt tot nu
toe niet overwogen.
De casus ‘Groepsgrootte en kwaliteit’ laat zien dat een geringe empirische

evidentie door de beleidsmakers werd omarmd ter ondersteuning van een
forse beleidsimpuls. De wil om iets aan de groepsgrootte te doen
domineerde destijds en was van doorslaggevende betekenis. Ook hier
laten de onderzoeksresultaten geen finaal oordeel toe over de effecten van
de beleidsimpuls. Er zijn echter nog geen signalen waar te nemen die
pleiten voor het terugdraaien van de verkleining van de groepsgrootte.
Hoewel de beschreven casussen uiteraard maar een voorlopige conclusie

toelaten, illustreren ze dat er geen directe relatie is tussen onderzoek en
beleid; beleid en onderzoek zijn eerder te beschouwen als ‘loosely joined’
systemen. Beleid wordt bepaald in een maatschappelijke en politieke
dynamiek waarin onderzoeksresultaten vooral gebruikt worden ter
bevestiging van het vigerende beleidskader. Dit kan leiden tot aanpassin-
gen in het beleid, maar vrijwel nooit is er sprake van een rigoureuze
herdefiniëring van de beleidstheorie.
1.4 Slot
Het meest opvallende aan de kennisketen in de onderwijssector is
versnippering. Subsidies voor onderzoek worden door de rijksoverheid bij
veel instellingen ondergebracht, terwijl de overheid ook in toenemende
mate optreedt als directe financier. De onderlinge afstemming qua
programmering is miniem en ook de procedures voor het verwerven van
subsidies door onderzoeksinstellingen of onderwijsinstellingen variëren
zeer evenals de kwalitatieve eisen waaraan onderzoeksvoorstellen moeten
voldoen.
Opvallend is ook dat de schakels tussen onderzoek, ontwikkeling,

implementatie en evaluatie zeer zwak zijn. In het bijzonder ontbreekt een
structurele samenhang tussen onderzoek en innovatie. De rol van de
landelijke en regionale adviescentra is in dit perspectief, onder andere
door de overheveling van de subsidiestromen naar de scholen, in toene-
mende mate onduidelijk geworden. Maar ook het feit dat het onderwijs-
veld en het beleid vaak klagen over de geringe bruikbaarheid van door de
‘fundamentele’ wetenschap voortgebrachte resultaten, vraagt om een
herziening van de organisatie van de keten. Deze herziening vereist een
voortrekkersrol van de rijksoverheid, in het bijzonder van het ministerie
van OCW.
Uiteraard zijn met een betere organisatie de problemen met betrekking tot
de inhoudelijke versterking van de schakels in de kennisketen nog niet
opgelost. Maar die verantwoordelijkheid ligt dan voor een belangrijk deel
bij actoren in het onderwijsveld waartoe zowel universitaire onderzoekers
en adviseurs uit de infrastructuur als sectorraden en schoolbesturen
horen.
Literatuur
Appelhof, P. H. van Gennip, W. de Geus, E. Jacobs, L. Mulder, L. van Tilborg, W. de Wit (1997).
En toen was het OVB er niet meer… Utrecht, Sardes.
De Boer, Y (2009). Onderwijs onderzocht, 12,5 jaar PROO. Den Haag; NWO.
Broekkamp. H, R. Vanderlinde, B.H.A.M. Van Hout-Wolters en J. Van Braak (2009). De relatie
tussen onderwijsonderzoek en onderwijspraktijk verkend in Nederland en Vlaanderen.
Pedagogische Studiën, 86, (4), 313-320.
Chelimsky, E. (1987). What have we learned about the politics of program evaluation, in:
Educational evaluation and policy analysis, 9, (3), 199-213.
Creemers. B. en W. Hoeben (1984). Onderzoek tussen onderwijsontwikkeling en weten-
schapsontwikkeling, Den Haag; SVO.
Kemenade, J.A. van (1979). Onderwijsresearch en onderwijsbeleid. In: J.A. van Kemenade,
Als de smalle weegbree bloeit. Opstellen over onderwijs en onderwijsbeleid. Amsterdam: Bert
Bakker.
Kemenade, J.A. van, N. van Lagerweij, J. Leune, J. Ritzen (1986). Onderwijs bestel en beleid 1.
Groningen: Wolters-Noordhoff.
Ministerie van OCW (1996). Groepsgrootte in onderbouw maximaal 25; bovenbouw 34.
Persbericht 22-1-1996. Directie Communicatie.
Ministerie van OCW (2003). Tiende voortgangsrapportage ‘Groepsgrootte en kwaliteit’. Den
Haag: Ministerie van OCW.
Ministerie van OCW (2009). Brief aan de Tweede Kamer in zake onderwijsonderzoek, ref
128984. Den Haag, SDU.
Mulder, L., J. Roeleveld, I. van der Veen en H. Vierke (2005). Onderwijsachterstanden tussen
1988 en 2002. Ontwikkelingen in basis- en voortgezet onderwijs. Nijmegen: ITS/SCO-
Kohnstamm Instituut.
NWO-PROO (2009). Onderwijs onderzocht. Den Haag: NWO.
Tromp, H. (1997). Opkomst en teloorgang van een instituut, dertig jaar SVO. In: G. Kerkvliet &
F. Vanderwilt, Terugblik op dertig jaar SVO. Den Haag: SVO.
Vanderwilt, F. (1996). Evaluatie onderwijsvoorrangsbeleid, In: G. Kerkvliet & F. Vanderwilt,
Terugblik op dertig jaar SVO. Den Haag: SVO.
Vereniging de Samenwerkende Landelijke Pedagogische Centra (2008). De R&D-functie van
de LPC in het kader van de SLOA. ‘s-Hertogenbosch: KPC.
Weiss, C. (1980). Social Science Research and Decisionmaking. New York: Columbia University
Press.
02
Experimentele
designs in
onderwijs
onderzoek
Roel Bosker
Hoogleraar onderwijskunde, RUG - TIER
2.1 Het “echte” experiment
In de Nederlandse onderwijswetgeving komt ook de Experimentenwet
onderwijs voor. Het cruciale deel bestaat uit lid 1 van artikel 2 uit die wet
en luidt: “Indien het bevoegd gezag bij wijze van experiment onderwijs
wenst te geven dat valt buiten de kaders van de afzonderlijke onderwijs-
wetten, kan Onze minister beslissen dat dit onderwijs uit de openbare kas
wordt bekostigd.” Onze zuiderburen hebben het over proeftuinen in plaats
van experimenten, en de discussie over het gebruik van experimenten in
het onderwijsonderzoek zou er sterk bij gebaat zijn als we de
Experimentenwet zouden omdopen in een Proeftuinenwet. Waarom?
Omdat met de wet wordt gedoeld op een “proefneming om nieuwe
werkwijzen, inrichtingen, enz. te proberen”, zoals de Van Dale de tweede
betekenis van het woord experiment omschrijft, en volwassenen en
kinderen die deel uitmaken van zo’n experiment zijn proefkonijnen in een
proeftuin.
Bij wetenschappelijk onderzoek gaat het daarentegen om “een volgens plan

uitgevoerde proef om tot nieuwe kennis te komen (…), of om een theorie
te toetsen.” Hier hebben we het over de eerste, wetenschappelijke
betekenis van het woord experiment, waar het gaat om de proef op de
som. Als dat plan aan bepaalde wetenschappelijke eisen voldoet, dan kan
er sprake zijn van een “echt” experiment. In het vervolg zal ik het woord
experiment alleen nog maar in deze betekenis gebruiken. Die wetenschap-
pelijke eisen betreffen de aselecte toewijzing van individuen aan verschil-
lende experimentele condities en de controle van de onderzoeker over die
condities (Shadish, Cook, & Campbell, 2002). In deze bijdrage zal ik eerst
uiteen zetten waarom het experiment ook wel de gouden standaard wordt
genoemd. Vervolgens ga ik in op de plaats die dit type onderzoek speelt bij
de vermeerdering van onze kennis over wat er werkt in het onderwijs.
Daarna komt een specifieke versie van het experiment aan de orde,
namelijk de Cluster Randomized Controlled Trial, die met name in het
onderwijsonderzoek een prominente plaats inneemt. Daarbij ga ik in op
de veel gestelde vraag of en hoe zo’n type experiment uitgevoerd kan
worden. Tenslotte behandel ik een aantal problemen die met het uitvoeren
van experimenten verbonden zijn en geef enkele suggesties hoe daarmee
omgegaan kan worden.
2.2 De gedachtegang achter het experiment

In wetenschappelijke theorieën over het onderwijs worden uitspraken
gedaan over oorzaak-gevolg relaties: als de leerkracht zus doet heeft dit
zo’n effect op de ontwikkeling van leerlingen. In de logica wordt in dit
verband gesproken over noodzakelijke en voldoende voorwaarden. Als A
een noodzakelijke voorwaarde is voor B, dan geldt dat als B optreedt ook A
het geval moet zijn. Bijvoorbeeld: alleen als de leraar in staat is adequaat
rekenonderwijs te verzorgen zullen de leerlingen in staat zijn een hoog
rekenvaardigheidsniveau te bereiken. De leerlingen hebben een hoog
rekenvaardigheidsniveau, dan moet de leraar op adequate wijze het
rekenen onderwezen hebben. Als A een voldoende voorwaarde is voor B
dan geldt dat als A optreedt ook B zal optreden. Maar het is in dit geval niet
zo dat als B optreedt ook A het geval moet zijn. Bijvoorbeeld: als een
leerling dag in dag uit gepest wordt zal hij zich onzeker voelen. De leerling
wordt continu gepest, dan zal hij zich onzeker voelen. Maar niet elke
leerling die zich onzeker voelt is continu gepest. Nu was dit een negatief
voorbeeld, maar we zijn natuurlijk op zoek naar voldoende voorwaarden
voor een positieve ontwikkeling van leerlingen. Om te kunnen vaststellen
of A een voldoende voorwaarde voor B is kunnen we te werk gaan via de
methode van de counterfactual. We creëren een situatie waar A niet wordt
toegepast. Als dan toch B optreedt, weten we dat A niet een voldoende
voorwaarde voor B was. Zie hier het idee van het experiment: een
controlegroep die niet de interventie ondergaat.
De situatie is echter vaak, om niet te zeggen: altijd, complexer dan één

oorzaak en één gevolg. Het gaat meestal om een een samenspel van
factoren dat de oorzaak is voor een bepaald gevolg. Mackie (1974) heeft in
dit verband voorgesteld om te spreken over een zogenaamde INUS-
voorwaarde: “an Insufficient but Nonredundant part of an Unnecessary
but Sufficient condition.” Ofwel: een onvoldoende maar niet overbodig
deel van een niet noodzakelijke maar wel voldoende voorwaarde. We
kunnen deze ingewikkelde zin het best verduidelijken met het volgende
voorbeeld. Als er sprake is van een specifiek samenstel van factoren (een niet
noodzakelijke maar wel voldoende voorwaarde) waarvan een substantiële
taalachterstand een onmisbaar onderdeel vormt (een onvoldoende maar niet
overbodig deel), dan zal de leerling een vertraging in zijn schoolloopbaan oplopen.
Dit betekent dat als we constateren dat bij een leerling een vertraging in
zijn schoolloopbaan optreedt van alles en nog wat daar de oorzaak van kan
zijn. Maar als het betreffende complex van factoren optreedt (bijvoor-
beeld: substantiële taalachterstand, allochtone Nederlander, jongen,
gedemotiveerd) dan zal die vertraging alleen optreden als inderdaad onder
meer sprake is van een substantiële taalachterstand.
De logica heeft betrekking op deterministische uitspraken: er is geen

enkele uitzondering op de gegeven regel mogelijk. Is dat wel het geval dan
geldt de causale redenering niet meer. Echter, in de sociale werkelijkheid,
en dus ook in het onderwijs, gaat het niet om deterministische maar om
probabilistische uitspraken: als de leraar zus doet neemt de kans toe dat de
leerling zich zo zal ontwikkelen. Als het samenspel van factoren, waaron-
der die substantiële taalachterstand, zich voordoet, neemt de kans toe dat
de leerling een vertraging in zijn schoolloopbaan zal oplopen.
Om over causaliteit te kunnen spreken is het wezenlijk dat:
1. de oorzaak A (de leerkracht doet zus) vooraf gaat aan het gevolg B
(de leerling ontwikkelt zich zo);
2. variaties in de oorzaak A samenhangen met variaties in het gevolg B;
3. er geen andere oorzaken voor het betreffende gevolg B zijn aan te
wijzen.
Het is met name de laatste voorwaarde die het experiment tot de gouden
standaard verheft: geen enkel ander type onderzoeksontwerp kan zo goed
aan die voorwaarde voldoen. De reden daarvoor is, dat alleen in het
experiment de onderzoeker én controle over de toewijzing van proefper-
sonen (bijvoorbeeld leerlingen, leraren) aan de condities én over de
condities zelf heeft. Hij zorgt ervoor dat de te vergelijken groepen
equivalent zijn, zodat alle verschillen na afloop van het experiment alleen
nog maar te maken kunnen hebben met verschillen tussen de condities.
En omdat de onderzoeker de experimentele en controleconditie zelf in de
hand heeft, manipuleert hij zelf de onafhankelijke variabele – de oorzaak
– in zijn onderzoek. In onderstaande tabel wordt dit schematisch
weergegeven:
Tabel 1 Controle bij drie typen onderzoeksdesigns

Manipulatie onafhankelijke Aselecte toewijzing aan
variabele (interventie)? condities?
Experiment JA JA
Quasi-experiment JA NEE
Niet experimenteel onderzoek NEE NEE
Een eenvoudig, versimpeld voorbeeld om dit duidelijk te maken is

onderzoek naar leren met een interactief computerprogramma (experi-
mentele conditie) versus leren met een traditioneel leerboek (controle
conditie). Stel dat er 50 leerlingen aan het onderzoek mee kunnen doen,
dan betekent aselecte toewijzing dat het lot (door het opgooien van een
munt) bepaalt of een leerling in de experimentele of de controle conditie
terecht komt. Dat betekent ook dat alle verschillen tussen de experimen-
tele en de controlegroep bij aanvang van het experiment toevallig zijn en
dus verwaarloosbaar (Rubin, 1974). In dit voorbeeld heeft de onderzoeker
de stimulus ook (min of meer) onder controle want het interactieve
computerprogramma kan hij zelf selecteren en hij heeft zelf in de hand dat
de instructie (hetzij met de computer hetzij via het leerboek) over
hetzelfde onderwerp gaat en ook even lang duurt. De implicatie van het
voldoen aan beide voorwaarden is dat de verschillen tussen de twee
groepen leerlingen na afloop van het experiment niet zijn toe te schrijven
aan andere oorzaken dan aan de interventie.
Er zijn nog drie belangrijke randvoorwaarden: de deelnemende leerlingen
mogen niet weten dat ze meedoen aan een experiment (anders gaan ze
zich wellicht anders gedragen dan ze normaal zouden doen). Ook de
“testleiders” - in dit geval degenen die de leerlingen aan het werk zetten
met de computer respectievelijk het leerboek - mogen dit niet weten. Dit
wordt het “dubbel-blind” principe genoemd. Voorts geldt dat elke leerling
volstrekt individueel en ongestoord bezig is. Dit laatste heeft met de
controle over de experimentele conditie te maken. Alleen het aldus
opgezette experiment kan uitsluitsel geven over oorzaak-gevolg relaties:
dat leerlingen in de experimentele groep zitten (en niet in de controle-
groep) is de enige reden dat de leerlingen anders zullen scoren op een
testje dat na afloop van het onderzoek wordt afgenomen. In onderstaande
figuur wordt schematisch de opzet van het experiment weergegeven.
Figuur 1 De opzet van het experiment

R X O
R O
Er zijn twee condities (wel interventie X of niet) waarover personen

gerandomiseerd (R) worden. Na afloop vindt er een observatie of meting
(O) plaats bij beide groepen.
Waarom het experiment de gouden standaard wordt genoemd heeft te

maken met de bedreigers van interne validiteit (d.w.z. ze brengen de
oorzaak-gevolg redenering in gevaar) die bij dit onderzoeksdesign (veel)
minder een rol spelen dan bij andere. Met name genoemd zijn de
volgende:
■■ vertekening door selectie: verschillen tussen de groep die behandeld
wordt en de controlegroep zijn al bij aanvang aanwezig omdat de

proefpersonen zichzelf geselecteerd hebben. In dat geval zijn degenen
die meedoen aan de experimentele conditie meestal gemotiveerder dan
degenen die in de controleconditie zitten. Dit probleem treedt dus niet
op een experiment waar de onderzoeker op basis van toeval de proef-
personen toewijst aan de condities.
■■ de invloed van bijzondere omstandigheden is afwezig omdat de
onderzoeker die controleert. Als er al iets bijzonders gebeurt dan zal het
evenzeer de proefpersonen in de controlegroep betreffen als in de
interventieconditie.
■■ door de randomisatieprocedure weten we dat de interventie- en
controlegroep equivalent zijn. Voortoetsen hoeven niet afgenomen te

worden. Het nadeel van voortoetsen, indien afgenomen, zou namelijk
kunnen zijn dat het de deelnemers aan het onderzoek gevoelig maakt
voor de interventie of door de voortoets zelf treedt al een leereffect op.
Dan zijn er nog een reeks bedreigers van de interne validiteit die in het
experiment evenzo goed als in het quasi-experiment, gecontroleerd
worden, zoals rijping (tussen het begin en het eind van het onderzoek
ontwikkelen de leerlingen zich sowieso, en dat is op zich geen gevolg van
de interventie) of regressie-naar-het-gemiddelde (laagpresteerders gaan
gemiddeld genomen vooruit en hoogpresteerders achteruit omdat testen
nooit perfect betrouwbaar zijn – dit verschijnsel treedt met name op als
men geïnteresseerd is in extreme groepen leerlingen, zoals zorgleerlingen
of hoogbegaafden). Deze bedreigers spelen daarom geen rol, omdat ze in
dezelfde mate in de interventie- en de controlegroep voorkomen.
2.3 De rol van het experiment bij de gang naar meer evidence
based onderwijs
Om te verhelderen wat de rol van het experiment is bij de lange weg naar
meer evidence based onderwijs, is het allereerst van belang soorten kennis te
onderscheiden, althans onderscheiden naar type onderzoek dat is ingezet
om tot die kennis te komen (Onderwijsraad, 2006). Daarbij kan Figuur 2
behulpzaam zijn.
Figuur 2 Naar gedegen kennis over wat er werkt in het onderwijs
1 2 3 4 5 6 7 8
praktijkkennis ➜ ➜ kennis uit reviews en

meta-analyses
In de figuur wordt kennis weergegeven als een proces van stapeling. Links
onderaan de berg staat het beginpunt: de praktijkkennis (1), soms vaak
impliciete kennis van de leraar, die bijvoorbeeld de groep klein probeert te
houden omdat hij daarmee de meest positieve ervaringen heeft. Dan volgt
de kennis die we opdoen uit gevalsstudies (2) waarbij één of enkele
onderwijspraktijken systematisch worden onderzocht. Zo kan bijvoor-
beeld het onderwijs in een wat grotere klas vergeleken worden met een
wat kleinere. Men zou kunnen zeggen dat dit onderzoek geen wetenschap-
pelijk kennis oplevert, maar in de fase van het doen van ontdekkingen en
het opperen van theorieën waarmee een en ander verklaard zou kunnen
worden – ook wel de context of discovery genoemd – hoeven minder harde
eisen aan het onderzoek te worden gesteld.
Dan komt het correlationele onderzoek (3): door de onderwijspraktijk te

observeren en fenomenen te meten, kunnen samenhangen worden
geconstateerd: er is een samenhang tussen groepsgrootte en leerpresta-
ties. Vervolgens kan iets systematischer worden nagegaan aan de hand van
ideaaltypische situaties zoals die zich in de praktijk voordoen wat er aan de
hand is: wellicht zijn er een reeks kleine klassen (zeg rond de 18 leerlingen)
en een reeks zeer grote klassen (zeg rond de 30 leerlingen). De onderzoe-
ker zou dit als een natuurlijk experiment (4) kunnen gebruiken om na te
gaan welke verschillen er in de ontwikkeling van leerlingen optreden. Nog
een stap verder zou hij leraren kunnen uitnodigen om aan een quasi-expe-
riment (5) mee te doen: de leraar mag dan zelf kiezen of hij met zo’n kleine
of zo’n grote groep wil werken, en hij mag ook de leerlingen zelf toewijzen
aan de grote of de kleine groep. Maar anders dan bij het natuurlijk
experiment zorgt de onderzoeker ervoor dat aan die conditie strikt de
hand wordt gehouden. Nog een stap verder neemt hij bij de leerlingen in
zo’n quasi-experiment een voortoets af (6) om in elk geval achteraf
verschillen tussen de groepen op de natoets te kunnen corrigeren voor de
verschillen die al bij de voortoets aanwezig waren.
Tot aan dit moment is er kennis opgebouwd over de samenhang tussen de

groepsgrootte en de prestaties van leerlingen, maar het echte harde bewijs
dat de groepsgrootte de oorzaak van betere prestaties is, is nog niet
geleverd. Misschien zijn het immers met name de goed gemotiveerde
leraren die wel met een grote groep willen werken, of misschien kiezen de
leraren ervoor om met name de leerlingen die extra zorg nodig hebben in
een kleine groep te plaatsen. Het harde bewijs komt dan tenslotte met het
echte experiment (7): de groepsgroottes worden gefixeerd en de onderzoe-
ker wijst zowel leerlingen als leerkrachten aselect aan de grote dan wel
kleine groep toe. Dit levert het hardste bewijs over de oorzaak-en-gevolg
relatie. Deze laatste reeks onderzoeken zijn meestal gedreven door een uit
de theorie afgeleide hypothese die men empirisch wil toetsen – ook wel de
context of justification genoemd. Hier worden harde eisen gesteld aan
transparantie, betrouwbare en valide metingen en repliceerbaarheid. Toch
zijn we nog niet op de top van de berg, want daar bevindt zich de review en
de meta-analyse (8): de samenvatting van wat al het onderzoek op het
betreffende terrein ons leert (zie bijvoorbeeld: Hattie,2009). Daarvoor
geldt overigens: de kwaliteit van de onderzoeken die in zo’n meta-analyse
worden samengebald, bepalen de kwaliteit van de meta-analyse. Een
review van 10 gevalsstudies is natuurlijk minder waard dan een meta-ana-
lyse van 10 echte experimenten.
Men zou de weg naar het eerste experiment als een ontwikkelingstraject
(research & development) kunnen zien (cf Raudenbush, 2005), waarbij
kleinschalig proeftuinen worden ingericht op basis van theoretische en/of
praktische inzichten. Dan volgt er kleinschalig kwalitatief of kwantitatief
onderzoek naar de effecten van de innovatie, gevolgd door een quasi-
experiment. De onderzoeker gaat vervolgens de implementatiecondities
nauwkeurig uitwerken (bijvoorbeeld dat leerkrachten extra scholing
behoeven om een en ander goed uit te kunnen voeren) en de innovatie
wordt opgeschaald. Tenslotte kan een grootschalig experiment plaatsvin-
den om te bepalen of de innovatie het gewenste effect bij leerlingen
teweeg brengt. Dat het bij innovaties zo hoort te gaan, is ook de zienswijze
die door de commissie Dijsselbloem is ontvouwd (Commisie Parlementair
Onderzoek Onderwijsvernieuwingen, 2008).
2.4 Het grootschalige experiment in praktijk gebracht

In het onderwijs kunnen op kleine schaal echte experimenten worden
uitgevoerd, zoals in het eerder gegeven voorbeeld waarin het leren met
een interactief computerprogramma en het leren met een traditioneel
leerboek werden vergeleken. Echter, in de praktijk zullen leraren met een
bepaalde aanpak uit de voeten moeten kunnen: zij zullen de interventie
moeten implementeren (met mogelijk afwijkingen van de interventie-
zoals-bedoeld als gevolg). Zoals aangegeven bij de bespreking van de
kennisontwikkeling, betekent dit uiteindelijk dat het experiment plaats
gaat vinden bij leraren en/of scholen die gerandomiseerd worden over de
condities, zoals ook groepen leerlingen gerandomiseerd worden over de
condities. Het onderwijs vindt in de staande praktijk immers in klassen
plaats. Een serieuze interventie beslaat op zijn minst een aantal weken zo
niet een heel schooljaar. Dit type experiment waarbij hele groepen
leerlingen worden gerandomiseerd staat bekend als het Cluster
Randomized Controlled Trial (CRCT). Dit is aanmerkelijk ingewikkelder
dan het eenvoudige voorbeeld experiment. Zo gaan we nu 25 leraren met
hun klassen (zeg 600 leerlingen) in de interventieconditie vergelijken met
25 andere leraren en hun klassen. Het heeft immers geen zin om één klas
met één leraar met één andere klas met één andere leraar te vergelijken: de
resultaten kunnen dan geheel en al afhankelijk zijn van de eigenschappen
van die twee leraren en hun klassen. Verder kan natuurlijk nooit het
dubbel-blind principe worden toegepast: in elk geval de leraren, maar ook
de leerlingen, zullen weten dat ze deel uitmaken van een experiment. En
nu zullen de leerlingen niet meer individueel ongestoord, maar in een
groep leren. Voorts zal het wenselijk zijn om toch ook maar een voortoets
af te nemen om enerzijds na te kunnen gaan of de groepen echt equivalent
zijn en anderzijds om te kunnen onderzoeken of het experiment anders
uitpakt voor leerlingen die verschillend scoren op de voortoets (meestal
treden de gunstigste effecten op voor initiële laagpresteerders).
Bijkomend voordeel is dat als onderweg leerlingen om wat voor reden dan
ook uitvallen, we na kunnen gaan of de uitval in de interventiegroep
anders is dan in de controlegroep. Tenslotte zullen we de controlegroep
niet verstoken kunnen laten van onderwijs: deze leerlingen zal in elk geval
de staande praktijk moeten worden aangeboden. In onderstaande figuur
wordt de opzet van dit onderzoek weergegeven.
Figuur 3 De opzet van de Cluster Randomized Controlled Trial met voortoets

R O1 XA O2
R O1 XB O2
Er worden 2 x 25 groepen vergeleken en de metingen vinden plaats bij 2 x

600 leerlingen. Ook zal nagegaan moeten worden hoe het onderwijs
gegeven wordt: houden de leraren zich aan de afspraken? Deze gehele
operatie vereist de nodige logistiek en het zal ook direct duidelijk zijn dat
zo’n experiment prijzig is. Reden te meer om er pas mee aan de slag te
gaan als én de interventie goed uitontwikkeld is én voldoende beproefd in
eerdere fases, én als het te bereiken effect bij leerlingen waardevol wordt
geacht én er toch enige onzekerheid is of het in de gewenste omvang op
zal treden.
Dergelijke experimenten zijn ook daadwerkelijk uitgevoerd. Baanbrekend

was het STAR-experiment waarin aldus kleine klassen vergeleken werden
met grote klassen met een onderwijsassistent en met grote klassen zonder
onderwijsassistent (Finn & Achilles, 1990). Meer recentelijk vormen de
experimenten met het Success for All programma een bekend voorbeeld
(Borman et al., 2005, 2007). In deze gevallen werd voldaan aan alle
voorwaarden die de Coalition for Evidence Based Policy (2003) heeft
geformuleerd om het hardste bewijs over de werking van een interventie
te kunnen verkrijgen en de opgedane kennis te kunnen verspreiden:
1. De interventie is helder omschreven
2. A-selecte (door toeval bepaalde) toewijzing aan condities
3. Geen systematische verschillen tussen de experimentele en de
controlegroep
4. Valide en betrouwbaar gemeten uitkomstmaten
5. (Bijna) geen experimentele “sterfte”, dat wil zeggen uitval
6. Rapportage van effecten bij afgebroken behandeling
7. Rapportage van lange termijn effecten: beklijven effecten?
8. Rapportage van de grootte van het effect en significantie-niveaus
9. Rapportage van differentiele effecten
10.Rapportage van alle effecten (ook negatieve en non-effecten).
2.5 Problemen met het experiment in onderwijsonderzoek

en mogelijke oplossingen
Er wordt, ondanks de hierboven aangegeven noodzaak, toch kritiek
geleverd op het gebruik van experimenten (o.a. Gravemeijer & Kirschner,
2007, 2008). Ik noem de voornaamste en geef mijn tegenwerpingen
(Bosker, 2008a en b). Men vindt het experiment onethisch. Deze kritiek
berust op een misverstand: men ziet dan vaak de opzet van het experiment
voor zich zoals weergegeven in Figuur 1, waarbij de leerlingen in de
controleconditie iets onthouden wordt. In Figuur 3 heb ik weergegeven en
daarbij uitgelegd dat deze leerlingen gewoon onderwijs uit de staande
praktijk krijgen. Hun wordt dus niet onthouden wat andere leerlingen die
niet betrokken zijn in het experiment wel krijgen. In het STAR-experiment
ging men zelfs nog een stapje verder: de grote klassen met 22-25 leerlingen
waren aanmerkelijk kleiner dan wat toentertijd gebruikelijk was (28
leerlingen en meer).
In het verlengde van het ethische bezwaar vraagt men zich af hoe je
scholen bereid kunt vinden om in de controlegroep plaats te nemen. Ik zie
twee oplossingen: het werken met wachtlijsten waarbij scholen pas na een
tijd als controleschool te hebben gefunctioneerd de interventie mogen
gaan toepassen (bijv. Bosker, Branderhorst, & Visscher, 2007). Of het
gebruik van een crossover design: de groep scholen die bijvoorbeeld met de
jongste leerlingen in de interventieconditie zit, vormt met oudere
leerlingen de controleconditie en voor een andere groep scholen geldt het
omgekeerde (bijv. Borman et al, 2005, 2007).
Dan bepleit men het belang van procesgerichte causaliteit (waarom werkt
iets?) boven dat van de productgerichte causaliteit (dat het werkt).
Daarover kan ik kort zijn: wie is er nu geïnteresseerd in hoe iets werkt als
het niet werkt?
Verder wijst men op het probleem van de early adopters: de interventie werkt
wellicht alleen bij de eerste groep leraren die er in het kader van het
experiment enthousiast mee aan de slag zijn gegaan. Of het ook bij andere
leraren gaat werken blijft de vraag. Dit probleem verwijst naar het meer
algemene probleem waar ook een experiment zonder dubbel-blind
procedures niet tegen opgewassen is: het mogelijk optreden van
Hawthorne-effecten (enthousiaste leraren in de interventieconditie). Op
dit bezwaar heb ik maar één reactie: de hoop dat de beroepseer van de
leraren hen ertoe zal brengen om ook met enthousiasme, in het belang
van hun leerlingen, met de bewezen effectieve innovatie aan de slag te
gaan.
Tenslotte: niet alles laat zich experimenteel onderzoeken, zo luidt de

kritiek. Daar kan ik het niet mee oneens zijn. Maar soms kan met inven-
tieve technieken (voor een aardig voorbeeld zie: Luyten, 2006) het ideaal
van het experiment benaderd worden. En waar zelfs dat niet kan, zoals bij
het vergelijken van geïntegreerde versus gedifferentieerde onderwijssyste-
men, moet men toch maar proberen zo hard mogelijk bewijs te verkrijgen.
Literatuur
Borman, G. D., Slavin, R. E., Cheung, A., Chamberlain, A. M., Madden, N. A., & Chambers, B.
(2005). Success for All: First-year results from the national randomized field trial.
Educational Evaluation and Policy Analysis, 27, 1-22.
Borman, G. D., Slavin, R. E., Cheung, A., Chamberlain, A. M., Madden, N. A., & Chambers, B.
(2007). Final reading outcomes of the national randomized field trial of success for all.
American Educational Research Journal, 44, 701-731.
Bosker, R. J. (2008a). Naar meer evidence based onderwijs! Pedagogische Studiën, 85, 49-51.
Bosker, R. J. (2008b). Tripliek: een onnodig gecompliceerde voorstelling van zaken.
Pedagogische Studiën, 85, 305-308.
Bosker, R. J., Branderhorst, E. M., & Visscher, A. J. (2007).Improving the utilisation of
management information systems in secondary schools. School Effectiveness and School
Improvement, 18, 451-467.
Coalition for Evidence Based Policy (2003). Identifying and implementing educational
practices supported by rigorous evidence: A user friendly guide. Washington: United States
Department of Education.
Commisie Parlementair Onderzoek Onderwijsvernieuwingen (2008). Tijd voor onderwijs.
Eindrapport. Den Haag: SDU.
Finn, J. D., & Achilles, C. M. (1990). Answers and questions about class size: A statewide
experiment. American Educational Research Journal, 27, 557–577.
Gravemeijer, K. P. E., & Kirschner, O. A. (2007). Naar meer evidence based onderwijs?
Gravemeijer, K. P. E., & Kirschner, O. A. (2008). Dupliek: een te simpele voorstelling van zaken.
Hattie, J. (2009). Visible learning. A synthesis of over 800 meta-analyses relating to
achievement. Londen: Routledge.
Luyten, H. (2006). Het effect van een jaar onderwijs op de wiskundeprestaties in groep 5 en 6
en de verschillen tussen scholen. Pedagogische Studiën, 83(6), 432-451.
Mackie, J. L. (1974). The cement of the universe: A study of causation. Oxford: Oxford
University Press.
Onderwijsraad (2006). Naar meer evidence based onderwijs. Den Haag: Onderwijsraad.
Raudenbush, S. W. (2005). Learning from attempts to improve schooling: The contribution of
methodological diversity. Educational Researcher, 34(5), 25-31.
Rubin, D. B. (1974). Estimating causal effects of treatments in randomized and nonrandomi-
zed studies. Journal of Educational Psychology, 66, 688-701.
Shadish, W. R., Cook, T. D., & Campbell, D. T. (2002). Experimental and quasi-experimental
designs for generalized causal inference. Boston / New York: Houghton Mifflin company.
03
Kwalitatieve
methoden in
onderwijs
onderzoek
Lennart Vriens
Emeritus-hoogleraar vredespedagogiek, UU
3.1 Inleiding
In 1976 publiceerde de Groningse hoogleraar Noordam een kritisch artikel
over de nieuwe discipline onderwijskunde. Hij stelde dat deze zich steeds
meer ontwikkelde tot een systeem van lege codes waarmee onderwijskun-
digen wel met elkaar communiceerden, maar dat nog nauwelijks sloeg op
de praktijk waarover het pretendeerde te gaan. Noordams kritiek was
wellicht kort door de bocht, maar wel interessant. Ze illustreert een aantal
problemen als een wetenschap tegelijkertijd academische aspiraties heeft
en de pretentie een bijdrage te leveren aan verbeteringen van een
cultureel-maatschappelijke praktijk.
Onderwijskunde is ontstaan uit het concept van een praktische weten-

schap zoals dat in de jaren zestig en zeventig is ontwikkeld. Dit concept
pretendeert een directe koppeling te realiseren tussen object van
onderzoek en de daarin aanwezige mogelijkheden tot verbetering.
Wetenschappelijk onderzoek wordt daarbij niet verricht als een geïsoleer-
de en verheven activiteit met eventueel in de praktijk toepasbare resulta-
ten, maar is direct gekoppeld aan het in gang zetten van gewenste
verbeteringen. Deze directe koppeling moet niet alleen leiden tot een
praktische wetenschap, maar ook tot een verwetenschappelijkte praktijk.
Het is natuurlijk zeer pretentieus geformuleerd en het is de vraag of zo’n

pretentie is waar te maken. Het object van de onderwijskunde betreft niet
alleen het onderwijs, maar omvat ook alles wat eromheen zit om het
mogelijk te maken en in goede banen te leiden, ofwel alles wat zich tussen
wetgeving en de directe werkvloer bevindt. Het gaat om een uitermate
complex stelsel van menselijke activiteiten, met vele elkaar versterkende
maar ook tegenwerkende dynamieken. Dan rijst niet alleen de vraag of
onderwijskundig onderzoek deze complexiteit wel aan kan, maar ook hoe
een vervlechting met de praktijk kan samengaan met de voor wetenschap-
pelijk onderzoek noodzakelijke distantie. Dat speelt nog sterker als er in
die praktijk ook nog tegenstrijdige belangen blijken te zijn en wetenschap
neerkomt op onverbloemd partij kiezen.
In de praktijk kiezen wetenschappers dan veelal eerder voor distantie dan

voor een te grote betrokkenheid op de praktijk. Maar als distantie gaat
betekenen dat alle binding met de praktijk verloren gaat, dan gaat
wetenschap nergens meer over.
Het probleem van distantie tegenover betrokkenheid valt ruwweg samen

met het onderscheid tussen kwantitatief en kwalitatief onderzoek in de
sociale wetenschappen en dus ook in de onderwijskunde. In zijn alge-
meenheid kunnen we stellen dat na de methodenstrijd van de jaren zestig
en zeventig het kwantitatief onderzoek dominant is in de sociale weten-
schappen, inclusief de onderwijskunde. Belangrijke argumenten voor deze
keuze zijn de gepretendeerde exactheid en geldigheid van resultaten, de
universele toepasbaarheid en de methodische helderheid. Op deze punten
scoren de kwalitatieve onderzoeksmethoden aanzienlijk minder en dat
betekent dat de onderwijskundig onderzoeker die zich van kwalitatieve
methoden wil bedienen, deze keuze uitgebreid moet motiveren en merkt
dat zijn onderzoek in veler ogen minder status heeft.
In de jaren tachtig begon weliswaar een revival van kwalitatieve onder-
zoeksmethoden en internationaal lijken deze inmiddels weer volkomen
geaccepteerd (Kelchtermans, 2002), maar deze trend lijkt aan de
Nederlandse onderwijskunde te zijn voorbijgegaan. Kwantitatief onder-
zoek is dominant, kwalitatief onderzoek wordt weliswaar niet categorisch
afgewezen, maar bijna altijd speelt de (on)uitgesproken vraag of er toch
niet beter een kwantitatief onderzoek had kunnen plaatsvinden. Een korte
schets van de ontwikkeling van de onderwijskunde kan duidelijk maken
hoe dit gekomen is.
3.2 Interdisciplinariteit van onderwijskunde

In de jaren tachtig werd onderwijskunde in het Academisch Statuut
opgenomen, wat een erkenning betekende voor de studie. Tegelijkertijd
ontstond ook de eerste politieke tegenwind. De legitimerende functie
voor het emanciperende onderwijsbeleid werd minder vanzelfsprekend,
vanuit de pedagogische moederdiscipline werd kritiek geleverd op haar
technologisch karakter en uit het onderwijs zelf kwamen geluiden dat
men te weinig voeling had met de praktijk. De in het onderzoeksbeleid van
die jaren gehanteerde kwaliteitseisen bevorderden bovendien het meest
gestandaardiseerde onderzoek en daarmee werd onderwijskunde de facto
meer en meer gedomineerd door de onderwijspsychologie, die zich op de
neo-positivistische wetenschapsopvatting met zijn empirisch-analytische
methode oriënteerde. Kwantitatief onderzoek werd de norm, ander
onderzoek verdween steeds meer in de marge.
In deze setting verloor onderwijskunde haar interdisciplinaire karakter en

kwam de revival van de kwalitatieve methoden, die in die jaren internatio-
naal op gang kwam voor de onderwijskunde, te vroeg. Maar dat betekende
wel een gemiste kans. In plaats van een creatieve wetenschap met een
interessant onderzoeksveld en een behoorlijk kritisch potentieel werd
onderwijskunde toch vooral een kunde in plaats van een wetenschap, een
ontwikkeling die werd bevorderd door de nieuwe studie Toegepaste
Onderwijskunde aan de Technische Universiteit Twente. Bovendien kreeg
ze het imago van een weinig met de echte praktijk verbonden technologie
en een vooral nuttige dienaar van een overheid die haar eigen onderwijs-
politiek voerde. Het is voor de psychologisch georiënteerde onderwijs-
kunde een geluk geweest dat de ontwikkelingen van de nieuwe media als
het ware smeekten om nieuwe leertheorieën en daarvoor benodigd
onderzoek. Die kwamen er ook, de cognitivistische psychologie werd
verdrongen door het constructivisme en coöperatief leren werd een nieuw
speerpunt in het onderzoek. Maar ook veel van deze onderzoeken waren
meer gericht op de hoe-vragen van de kunde dan op de wat- en waarom-
vragen van de wetenschap. In opzet en uitvoering waren ze vooral geënt
op kwantitatief onderzoek met eventueel kwalitatieve elementen, waarbij
veelal de methodologische eisen van de kwantitatieve methoden norma-
tief bleven.
De vraag die dan rijst is natuurlijk of de geschetste ontwikkeling een

noodzakelijke is geweest en of onderwijskunde zich creatiever ontwikkeld
had als zij vaker had gekozen voor de ontwikkeling van kwalitatieve
methoden. De aard en de complexiteit van het onderzoeksveld suggereren
van wel. In deze bijdrage wil ik daarom laten zien, dat kwalitatief onder-
zoek onontbeerlijk is als onderwijskunde zich wil manifesteren als een
wetenschappelijk verantwoorde en voor de praktijk relevante wetenschap.
Want als onderwijskundigen zich alleen bezighouden met kwantitatief
onderzoek volgens de daar geldende regels, dan vallen er een heleboel
interessante onderzoeksvragen en -velden buiten het blikveld van de
onderwijskunde. Voor de studenten die zich in deze wetenschap bekwa-
men, zou dat een enorme verarming zijn die ook hun academische
vorming zou schaden.
3.3 Waarom wordt onderwijs onderzocht?

Onderzoek wordt in deze bijdrage opgevat als het op systematische en
verantwoorde wijze iets te weten komen wat we nog niet wisten.
Wetenschappelijk onderzoek voegt daar nog aan toe dat er gewerkt wordt
met door de betreffende discipline geaccepteerde methodes (Jaeger 1997).
Dat wetenschappelijk onderzoek kan gedaan worden vanuit verschillende
motieven. De voornaamste zijn wel menselijke weetgierigheid en de
noodzaak om problemen op te lossen waarmee men geconfronteerd
wordt. Het in de jaren zestig en zeventig van de vorige eeuw gepropageer-
de derde motief emancipatie, dat de kritische potentie van wetenschap
moest garanderen, speelt in de wetenschappelijke discussie nauwelijks
meer een rol.
In het meeste wetenschappelijk onderzoek zijn de twee eerst genoemde

motieven wel aanwezig, maar de mate waarin kan enorm verschillen.
Theoretische fysica bijvoorbeeld heeft allereerst een theoretische
belangstelling waarbij praktische toepassingen eventueel volgen. Waar
wetenschap zich echter richt op het intermenselijk domein en de mens
zelf onderdeel wordt van het object van wetenschap, gaat het nooit om
‘zuivere’ kennis, maar dient weten het oplossen van of beter omgaan met
problemen. Onderzoek is dan bedoeld om een bijdrage te leveren aan
verbetering van of binnen de praktijk. Uiteraard is deze tweedeling niet
absoluut; in de meeste wetenschappen vullen menselijke weetgierigheid
en praktische intentie elkaar aan en worden de onderlinge verhoudingen
in de praktijk van de betreffende discipline bepaald. Daarmee wordt tevens
bepaald wat de in onderzoek opgedane kennis binnen de betreffende
discipline waard is, meestal in termen van waarheid en bruikbaarheid.
Grofweg kunnen we stellen dat naarmate een wetenschappelijke discipline
meer gestuurd wordt vanuit weetgierigheid, men zich meer richt op het
criterium waarheid en dat in wetenschappen waar het vooral gaat om
oplossing van ‘praktische’ problemen, relevantie en bruikbaarheid een
grotere rol spelen.
Het zal duidelijk zijn dat in onderwijskunde als praktische wetenschap de

waarde van onderwijskundig onderzoek vooral bepaald wordt vanuit het
criterium van de bruikbaarheid om het onderwijs goed vorm te geven en
problemen op te lossen. Met andere woorden, onderwijskundig onderzoek
heeft vooral zin als het iets bijdraagt aan onze kennis over onderwijs in
relatie tot mogelijke verbeteringen en oplossing van problemen.
Vanuit deze gedachtegang kunnen we de volgende motieven voor
onderwijskundig onderzoek onderscheiden:
■■ Verantwoording van wat bestaat en hoe dit vorm krijgt en is
vormgegeven;
■■ Mogelijkheden tot verbetering van bestaande onderwijsstructuren en
daarmee verbonden praktijken, ook in relatie tot onderwijsbeleid;

■■ Evaluatie van onderwijspraktijken en experimenten.
Er ontstaat zo wel een gigantisch en uitermate complex veld van onder-

zoek. Immers, onderwijs is een voortdurend veranderende praktijk met
een veelheid aan ondersteunende instanties in een ook steeds verande-
rende maatschappelijke en culturele context. En die context laat op allerlei
manieren zijn invloed gelden en bepaalt in belangrijke mate mee wat
onderzocht gaat worden, welke vragen van belang zijn, wat de criteria zijn
om de bruikbaarheid van de antwoorden te bepalen, wat de consequenties
zijn van de gevonden antwoorden etc. Het gaat dan bijvoorbeeld om
bepaling van de doelen van onderwijs, de richting waarin het onderwijs
zich moet gaan ontwikkelen, om de inhouden en de criteria die bepalen
wat we beschouwen als kwalitatief goed onderwijs, om de mogelijkheden
in te gaan op behoeften in het veld in relatie tot maatschappelijke wensen
en voorwaarden etc. Het onderwijs is zelf echter weer deel van die context
en bepaalt deze zaken in sterke mate mee.
In deze dynamiek wordt wetenschap geacht inzicht te geven in de

problemen en de criteria te leveren voor het beoordelen van wenselijke
veranderingen. De vraag hoe onderwijskunde als wetenschap zich tot deze
complexiteit verhoudt, bepaalt in belangrijke mate de keuze van onder-
zoeksvragen en -methodes.
3.4 Gebruik van kwalitatief onderzoek

Een belangrijk uitgangspunt binnen de familie van kwalitatieve onder-
zoekmethoden is dat de keuze van een methode afhankelijk is van het
probleem dat men wil onderzoeken. Afhankelijk van wat men te weten wil
komen, moet worden ingegaan op de relevantie en betekenis van de vraag,
op de aspecten die onderzocht moeten worden en op de vraag hoe men
aan de benodigde informatie kan komen. Als de informatie verzameld is,
wordt deze uitgewerkt en geanalyseerd, ofwel geordend en vervolgens in
thema’s ondergebracht. Deze thema’s kunnen zich al bij de vraagstelling
aangediend hebben, maar vaak worden ze pas uit het materiaal zelf
afgeleid. Ze liggen pas vast als ze door de onderzoeker verantwoord zijn en
in een geordend verslag gepresenteerd kunnen worden. Daarna komt de
belangrijkste fase van het onderzoek, de interpretatie van de resultaten.
Hierin wordt nagegaan wat de gevonden resultaten betekenen. Daarbij
komen zaken aan de orde als in hoeverre de gevonden gegevens met elkaar
overeenstemmen of juist niet, hoe dit te verklaren valt en wat dit in het
licht van de theorieën en andere relevante informatie wil zeggen. Daarbij
wordt ook gekeken of er achter de gegevens nog verborgen informatie zit
en hoe deze geïnterpreteerd kan worden. Interpretatie betekent daarbij
overigens niet altijd dat de problemen opgelost worden, beter begrijpen
kan ook beschouwd worden als voortschrijdend inzicht in de complexiteit
van de problematiek. Tenslotte zal dit geheel aan gevonden en geïnterpre-
teerde gegevens teruggekoppeld moeten worden naar de onderzoeks-
vragen, zodat er conclusies getrokken kunnen worden over wat het
onderzoek precies heeft opgeleverd. In de setting van praktische weten-
schappen kunnen dan ook nog aanbevelingen volgen voor de praktijk,
zodat deze verbeterd kan worden.
In principe is deze gang van zaken ook bij kwantitatief onderzoek terug te
vinden, maar in de familie van kwalitatieve onderzoekstechnieken gaat
het niet om het vinden van ‘wetmatigheden’, maar om het zo volledig
mogelijk begrijpen van fenomenen in hun context. Daarom is er veel
aandacht voor het particuliere, dat dan echter wel in zijn context moet
worden begrepen. De aandacht voor interpretatie komt voort uit de wens
tot de betekenis van fenomenen door te dringen. Om deze reden wordt
ook wel voorgesteld de term kwalitatief onderzoek te vervangen door de
term interpretatief onderzoek ( Levering & Smeyers 2003, p. 25), mede
omdat ook kwantitatief onderzoek van goede kwaliteit kan zijn. Echter,
taal laat zich slechts zelden dwingen door wetenschappelijke normen en
dat is zelfs het geval voor wetenschappelijke taal. Ook het voorstel om te
spreken van ‘fixed designs’ tegenover ‘flexible designs’ (Robson 2002, p.
XII) heeft weinig navolging gevonden.
Wat zijn nu precies de redenen om ook kwalitatief onderzoek te gebruiken

in het onderwijsveld? Naar mijn mening ligt de voornaamste reden in de
complexiteit van het onderzoeksveld dat om meer benaderingen vraagt.
Ook Shulman (1997, p. 6) geeft dit aan en constateert daarbij dat er geen
‘Supreme Court’ of andere formele autoriteit is die kan bepalen welke
vragen of methoden legitiem zijn en dat het de zo geheten “community of
scholars and practitioners” op dit gebied ook continu in ontwikkeling is.
Kwalitatieve methoden zijn in alle sectoren van het onderwijsveld

inzetbaar en met name van belang waar kwantitatief onderzoek tekort-
schiet of onbruikbaar is. Zo zijn bijvoorbeeld methoden voor filosofisch
onderzoek onontbeerlijk op het gebied van theorievorming, vooral bij de
legitimering en verheldering van concepten. Helaas komt dit onderzoek in
de onderwijskunde nauwelijks aan bod en gaan veel onderzoekers er
expliciet of impliciet vanuit dat de gebruikte concepten wel goed zijn
doordacht. Feitelijk betekent dit dat deze onderzoekers niet altijd goed
weten waar ze het over hebben ( Scriven 1988, p. 134) en dat hun resultaten
nauwelijks iets voor de praktijk betekenen (Noordam, 1976). Een tweede
gevolg van dit filosofisch tekort is dat de inbreng van de onderwijskunde
onder de maat is als het gaat om het publieke debat over het onderwijsbe-
leid. Waarom waren onderwijskundigen zo weinig kritisch toen de
overheid in de jaren negentig de basisvorming en het studiehuis invoerde
en daarbij inhoudelijke doelen gebruikte om een organisatorische omslag
naar grootschalige scholen te stimuleren? En waarom waren de onderwijs-
kundigen zo weinig weerbaar toen dezelfde politici die dit beleid in de
jaren negentig steunden, de vernieuwers op het matje riepen en de eerder
gewenste vernieuwingen als een aanslag op de kwaliteit van het onderwijs
afschilderden? Als onderwijskunde vanuit haar wetenschappelijke missie
haar eigen concepten had bevraagd op hun wetenschappelijke gehalte, op
hun grondslagen, op de afwegingen die men maakt om uit rivaliserende
opties te kiezen, dan had zij in het publieke debat beter duidelijk kunnen
maken dat kwaliteit geen vaststaande norm is, maar altijd invulling krijgt
in een culturele context.
Kwaliteit betekent dat afwegingen gemaakt worden tussen verschillende

functies van de school. De school is er niet alleen is om kennis over te
dragen, maar ook om kinderen te socialiseren en op te voeden tot goede
democratische (wereld)burgers die hun eigen bestaan op verantwoorde-
lijke wijze kunnen invullen, en tot mensen die niet alleen kennis van
zaken hebben, maar ook kunnen nadenken en een bijdrage leveren aan
het behoud en de verdere ontwikkeling van onze cultuur. Dan had men,
met erkenning van de vakkennis als onmisbaar element van de identiteit
en bekwaamheden van leraar, kunnen wijzen op het gegeven dat goed
leraarschap een combinatie is van zaken als vakkennis, beschikbaarheid
als identificatiemodel (ook moreel), pedagogische bekwaamheden om de
leerling uit te dagen, ontwikkelingspsychologische kennis van de
leeftijdsgroep waaraan men les geeft, en bewaker van de leerprocessen
van leerlingen. Dan had men in plaats van alle nadruk op het ‘nieuwe
leren’ te leggen op een beargumenteerde wijze een middenweg kunnen
bereiken tussen de noodzaak om (basis)kennis te oefenen en ruimte
krijgen om tot zelfstandig ontdekkend leren te komen. Want de construc-
tivistische opvattingen die men in de onderwijskunde voor dat laatste te
hulp roept, stellen de epistemologische theorie van het constructivisme te
vaak bijna naadloos gelijk aan de leerpsychologie en de didactiek, wat
sympathiek klinkt maar analytisch rammelt (Vriens 2007, p. 63).
Als het gaat om het uitdenken en plannen van grootschalige innovaties,

zou een aantal historische analyses van succesvolle en falende onderwijs-
processen in het verleden een bijdrage kunnen leveren aan kennis en
inzicht over wat al eerder geprobeerd is, waarom dit gelukt of mislukt is en
hoe men de beoogde veranderingen verantwoordde. Historisch onderzoek
zou ook kunnen bijdragen aan inzicht over de waarde van het opgebouwde
stelsel en de vraag wat men bij verandering wint en verliest. Vergelijking
met onderwijs in andere culturen zou dit nog meer kunnen uitdiepen.
Kwalitatief onderzoek is echter niet alleen van belang voor een kritische
analyse en verantwoording van doelstellingen in relatie tot beleid en
cultuur. Het kan bijna niet gemist worden waar de subjectiviteit in het veld
tot haar recht moet komen. Dat is bijvoorbeeld het geval bij de pedagogi-
sche dimensie van de schoolpraktijk, wanneer men inzicht wil krijgen in
de belevingswereld van kinderen en jongeren zonder deze al bij voorbaat
vanuit theoretische categorieën te beschrijven. In zo’n geval kan bele-
vingsonderzoek vanuit een fenomenologisch-hermeneutische traditie tot
belangrijke inzichten leiden, al moet men voorzichtig zijn met
generaliseren.
Een eigen voorbeeld is een onderzoek in de jaren tachtig naar hoe

kinderen vrede en oorlog zien, wat een gedifferentieerd beeld opleverde
van hoe kinderen tegen de internationale politiek en hun toekomst
aankijken (Van Kempen, Peek & Vriens, 1986). De kracht van dit type
onderzoek is dat het dicht bij de praktijk staat en voor de betreffende
professional vaak herkenbare en bruikbare inzichten biedt.
Maar het hoeft niet alleen om kinderen en jongeren te gaan. Van Manen
(1990; 1991) gebruikte belevingsonderzoek in de opleiding van leer-
krachten om ze hun pedagogische invloed en verantwoordelijkheid te
laten ontdekken. Ook de biografische of narratieve methoden
(Kelchtermans1994; Richardson 1996) en diverse vormen van beschrij-
vende en interpreterende casestudies (Barritt, 1996) plaatsen zich bewust
in de praktijk die ze willen begrijpen en optimaliseren. Empirie is hierbij
geen objectieve informatie die door een buitenstaander geleverd wordt,
maar contextueel en met de dynamiek van de eigen situatie en gedeelde
belevingswereld verbonden. Ofwel, men onderzoekt om inzicht te
verkrijgen in de veranderingsprocessen waar men zelf in zit en waarvan
het onderzoek deel uitmaakt. Dat betekent dat men niet kan toetsen, maar
wel dat men de ontwikkelingen zo goed mogelijk in kaart brengt en
verantwoordt hoe men aan zijn gegevens gekomen is.
Hetzelfde kan gezegd worden van het zogenoemde actie-onderzoek,

waarbij de leerkracht zelf als onderzoeker fungeert van de eigen praktijk
teneinde deze te verbeteren en zichzelf beschouwt als onderdeel van de
gewenste verandering. Hoewel het inmiddels ontdaan is van de politiek-
emancipatorische lading van de jaren zeventig, is het in Nederland nooit
echt populair geworden.
Een kritische dimensie kan in de huidige multiculturele samenleving ook

geleverd worden door het uit de culturele antropologie afkomstige
etnografisch onderzoek. Het zou een verrijking zijn voor het Nederlandse
onderwijs, niet alleen om leerlingen uit andere culturen beter te begrij-
pen, maar ook voor de pedagogische kennis over het functioneren van
cultureel bepaalde groepsprocessen, inclusief de ontwikkeling van
adequate socialisatietechnieken ten behoeve van de morele opvoeding in
een globaliserende wereld.
3.5 Slot
Onderwijs is een cultureel-maatschappelijke institutie die bedoeld is om
mensen te helpen beter hun weg te vinden in samenleving en cultuur.
Onderwijsresearch maakt daar deel van uit, maar probeert op zo goed
mogelijke en wetenschappelijk verantwoorde wijze een bijdrage te leveren
aan de kennis van dit veld. De veelheid aan vragen die in dit veld leven kan
niet alleen met de bekende kwantitatieve methoden gedekt worden, voor
een aantal vragen is kwalitatief onderzoek meer geëigend. Binnen de
familie van kwalitatieve onderzoeksmethoden liggen de spelregels
hiervoor niet volledig vast, maar is de onderzoeker wel gehouden aan
intellectuele integriteit en het zo goed mogelijk verantwoorden van de
door hem gebruikte procedures. Anders kan de relevantie van onderzoek
nooit beoordeeld worden.
Literatuur
Barritt, L. (1996). An Elementary School in Holland. Utrecht: International Books.

Boog. B. (2002). Handelingsonderzoek. In: B. Levering & P.Smeyers (Eds.) Opvoeding en
onderwijs leren zien. Een inleiding in interpretatief onderzoek (214-232). Amsterdam: Boom.
Jaeger R.M. (Ed.) (1988; 1994). Complementary Methods for Research in Education. Washington:
American Educational Research Association
Keltchtermans, G. (1994). De professionele ontwikkeling van leerkrachten basisonderwijs vanuit het
biografisch perspectief. Leuven: Universitaire Pers.
Kelchtermans, G. (2002). Kwalitatieve methoden in onderzoek: internationale ontwikkelin-
gen en de situatie in Vlaanderen. In: B. Levering & P. Smeyers (Eds.) Opvoeding en onderwijs
leren zien. Een inleiding in interpretatief onderzoek (132-153). Amsterdam: Boom.
Kempen, M. van., Peek, T., & Vriens, L. (1986). Vrede en oorlog als kinderprobleem.
Ongepubliceerd onderzoeksrapport R.U. Utrecht.
Levering, B., & Smeyers, P. (Eds.). (2002). Opvoeding en onderwijs leren zien. Een inleiding in
interpretatief onderzoek. Amsterdam: Boom.
Manen, M. van. (1990). Researching Lived Experience. Human Science for an Action Sensitive
Pedagogy. London [Ont.]: Althouse Press.
Manen, M. van. (1991). The Tact of Teaching. The Meaning of Pedagogical Thoughtfulness. London
[Ont.]: Althouse Press.
Noordam N.F. (1976); Over ‘optimalisering’ van het onderwijs. Pedagogisch Tijdschrift/Forum
voor Opvoedkunde, 1976, 1, 577-582.
Richardson, R. (1996). Fortunes and Fables. Education for Hope in Troubled Times. Stoke on Trent:
Trentham Books.
Robson, C. (1993, 2002). Real World Research. Malden: Blackwell.
Scriven, M. (1988). Philosophical Inquiry Methods in Education. In: R.M. Jaeger (Ed.)
Complementary Methods for Research in Education. Washington: American Educational
Research Association.
Shullman, L.S. (1994). Disciplines of Inquiry in Education. In: R.M. Jaeger (Ed.) Complementary
Methods for Research in Education (3-30). Washington: American Educational Research
Association.
Vriens, L.J.A. (2007). Opvoeden in verwarrende tijden. Op zoek naar visie. Antwerpen:
Garant.
04
Leren over leren
Lex Borghans
Hoogleraar Arbeidsmarkteconomie, UM
Terwijl van werkenden verwacht wordt dat ze levenslang leren, is het
voor scholen en de overheid heel normaal om beleid te voeren zonder
daarbij rekening te houden met het belang om te leren over de
effectiviteit van de manier van werken. Vanwege het toenemend
belang van onderwijs en de dalende kosten van onderzoek, zou ook de
maatschappij moeten willen leren van wat ze doet. Dit vraagt erom
experimenten een standaard onderdeel van beleid te maken. Net zoals
mensen op het werk leren terwijl hun productieve arbeid doorloopt,
kan het onderwijs ook leren zonder dat dit het reguliere onderwijspro-
ces te veel verstoort. Er zal echter een balans moeten worden gezocht
zodat niet alleen zo goed mogelijk onderwijs wordt gegeven op basis
van de huidige inzichten, maar de maatschappij ook blijft leren hoe
het nog beter kan.
4.1 Inleiding
Het afgelopen decennium is de aandacht voor het belang van kennis en
dus van leren enorm toegenomen. Met als noemer “de kenniseconomie”
wordt erop gewezen dat kennis een doorslaggevende factor is voor
economisch succes en wordt daarom met extra aandacht gekeken naar de
opbrengst van het onderwijs en is ook het thema levenslang leren op de
agenda komen te staan. In veel Westerse landen is er een trendmatige
groei in de vraag naar hoger opgeleiden die een extra versnelling heeft
gekregen door de ICT-golf van de jaren ’80 en ’90. Leren loont daarom
steeds meer en dus ligt het voor de hand ook meer in onderwijs te
investeren.
Er is echter een keerzijde bij deze ontwikkeling en dat is het feit dat
onderwijs zelf zeer duur is. Hierbij gaat het niet alleen om de 25 miljard
euro die ieder jaar door het Ministerie van Onderwijs, Cultuur en
Wetenschap aan onderwijs worden uitgegeven, maar ook om de enorme
gederfde inkomsten omdat leerlingen die op school zitten of studeren,
niet werken. Uit tijdbestedingsonderzoek blijkt dat Nederlanders gemid-
deld ongeveer evenveel tijd besteden aan onderwijs als aan werken2. Door
langer te studeren zal de tijd die beschikbaar is voor werk gereduceerd
worden en worden de mogelijkheden om de verworven kennis ook
daadwerkelijk te benutten steeds kleiner.
Net zoals in de kenniseconomie slimmer werken meer beloond wordt dan

simpelweg harder werken, zo zou ook in het onderwijs gezocht kunnen
worden naar mogelijkheden om niet meer tijd aan onderwijs te besteden
maar om efficiënter met de beschikbare tijd om te gaan. De grote vraag is
2
Lex Borghans, “Zonde van de Tijd” Leren in Nederland vanuit een economisch perspectief.
Oratie Universiteit Maastricht, 2006.
hoe dat moet. De kern van het antwoord is dat we ook dat moeten leren.
Net zoals we van mensen verwachten dat ze zich door te leren ontwikkelen
en productiever worden in hun werk, zo zou ook van de maatschappij
verwacht moeten worden dat ze leert en zo probeert haar productiviteit te
vergroten. Systematische experimenten zijn hierbij cruciaal.
In dit essay kijk ik vanuit dit perspectief naar de mogelijkheden om met

onderzoek het onderwijs in Nederland te verbeteren. Ik zal in paragraaf 2
allereerst bespreken hoe mensen al doende leren op het werk. In paragraaf
3 ga ik vanuit dit perspectief in op de vraag hoe ook de maatschappij al
doende kan leren. In paragraaf 4 bespreek ik wat nodig is om een
dergelijke manier van leren praktijk te maken en wat de kosten en de baten
hiervan zijn.
4.2 Leren op het werk

Leren bestaat uit drie componenten: (1) Zelfreflectie over wat je kan en nog
zou moeten leren, (2) uitproberen en vergelijken van mogelijkheden en (3)
automatiseren. Dat gebeurt op school, maar interessanter is dat ook op
het werk mensen voortdurend leren. Als een onervaren nieuwkomer
begint te werken, gaat hij op zoek naar de beste manier om dit te doen. Hij
haalt kennis uit boeken en krijgt tips en aanwijzingen van zijn baas en
collega’s. Via deze informatieoverdracht krijgt de beginnende werknemer
een beeld van welke manier van werken waarschijnlijk effectief is. De
ervaringen van anderen worden hiermee het startpunt van de ontwikke-
ling van de nieuwe medewerker. Toch gaat er in de praktijk nog veel mis.
Hoe zorgvuldig collega’s ook uitleggen hoe je het werk moet aanpakken,
nieuwkomers begrijpen vaak maar deels wat er eigenlijk bedoeld werd.
Ook hoeft wat goed werkt voor de ene persoon, niet goed te werken voor
iemand anders.
De tweede stap is daarom uitproberen. Rivkin, Hanushek en Kahn3 laten in

een interessant onderzoek over de productiviteit van Texaanse leraren zien
dat de productiviteit van nieuwkomers aanzienlijk lager ligt dan die van
meer ervaren docenten. Een voor-de-hand-liggende verklaring hiervoor is
dat deze leraren de slag nog niet te pakken hebben. Tijdens de lerarenop-
leiding hebben ze geleerd hoe je les zou moeten geven. Ze krijgen goede
adviezen van collega’s. Maar toch is de praktijk lastiger dan de theorie. Wat
er dan gebeurt, is een kwestie van uitproberen en ervaring opdoen. Ze
kiezen een keer voor de ene aanpak en hebben het gevoel dat het niet echt
goed werkt. Dan proberen ze – mogelijk op advies van een collega – iets
anders en merken dat de leerlingen veel beter opletten of de stof veel beter
begrijpen. De eerste keer denkt de nieuwe leraar nog dat dit misschien
3
Steven Rivkin, Eric Hanushek en John Kahn, Teachers, Schools and Academic Achievement.
Econometrica 73-2, pp. 417-458, 2005.
toeval is, maar na een paar keer wordt het hem duidelijk dat deze andere
aanpak echt beter werkt. Voortaan kiest hij deze aanpak zodat het
langzamerhand routine wordt.
De jonge leraar is dus aan het experimenteren en dit heeft gevolgen voor
zijn productiviteit. In plaats van alleen maar de beste methode te
benutten, probeert hij verschillende mogelijkheden uit. Een deel van de
tijd krijgen de leerlingen dus les op basis van een aanpak die niet optimaal
is. Toch zal niemand zeggen dat deze leraar niet zou mogen experimente-
ren. Het alternatief zou zijn dat hij vasthoudt aan de aanpak die hij de
eerste dag hanteert, en de kans is groot dat dat niet de beste aanpak is. Een
goede instructie tijdens de lerarenopleiding over wat doorgaans werkt en
wat niet, kan veel onnodig experimenteren voorkomen, maar uiteindelijk
wordt de docent alleen beter als we hem gunnen om te variëren en te
experimenteren met hoe hij lesgeeft, ook al gaat het daardoor soms een
keer mis. Uit het onderzoek van Rivkin et al. blijkt dat leerlingen veel beter
af zijn met een docent met meer ervaring, maar iedereen accepteert dat
ook jonge leraren ervaring op moeten doen en dus les zullen moeten
geven om uiteindelijk ook een goede docent te worden.
Het belang van al doende ervaring op doen speelt niet alleen in het
onderwijs maar in alle beroepen. Uit de Enquête Levenslang Leren4 komt
naar voren dat 94% van de tijd die mensen besteden aan leren op het werk,
informeel leren betreft. Slechts 6% van de tijd dat mensen leren, gaat het
om het volgen van een cursus of opleiding. Toch kan een cursus een
belangrijke rol spelen in het leerproces. Stel er wordt een nieuw compu-
terprogramma geïntroduceerd. Medewerkers gaan dan een middag naar
een cursus om te leren hoe dit programma werkt. Wat er feitelijk gebeurt,
is dat men tijdens die middag een overzicht krijgt van de mogelijkheden
van het programma en gewezen wordt op de dingen die mis kunnen gaan.
Het echte leren begint pas als men weer terug is op het werk. Daar gaat
men met het nieuwe programma werken en gaat er dus van alles mis.
Opnieuw volgt er een langere periode van uitproberen en experimenteren.
Dit gaat ten koste van de productiviteit, maar betekent wel dat de
betreffende medewerkers steeds handiger worden in het gebruiken van dit
programma en uiteindelijk dus veel productiever zullen worden.
Al doende leren en vernieuwingen doorvoeren in de manier van werken is

niet voor iedereen een vanzelfsprekendheid. Afhankelijk van de persoon-
lijkheid verschillen mensen in de mate van zelfreflectie en zelfsturing 5.
4
Lex Borghans, Bart Golsteyn en Andries de Grip, Meer werken is meer leren;
Determinanten van kennisontwikkeling. CINOP, Den Bosch, 2006.
5
Jasper van Loo, Training, Labor Market Outcomes and Self-Management. Proefschrift,
Universiteit Utrecht.
Niet iedereen staat open voor vernieuwing. Werknemers hebben na
verloop van tijd een goed werkende aanpak ontwikkeld en deze aanpak is
geautomatiseerd, zodat ze niet meer heel nadrukkelijk stil staan bij hoe ze
het doen, maar gewoon weten of voelen wat werkt en wat niet. Als de
omstandigheden veranderen of de bedrijfsleiding een nieuwe aanpak
introduceert omdat elders gebleken is dat deze zeer succesvol is, staan ze
niet meer open voor deze verandering en hebben ze het gevoel dat ze zelf
beter weten wat goed is en wat niet.
Op het werk gaan werken en leren dus hand in hand. Toch hebben
bedrijven hierbij een keuzemogelijkheid. Voor iedere medewerker geldt
dat er taken zijn waarin hij heel productief is en dat er taken zijn waar hij
veel van leert. Als een medewerker taken krijgt toebedeeld die erop zijn
gericht zijn productiviteit zoveel mogelijk te benutten, zal hij ook nog
ervaring opdoen en dus leren. Een bedrijf kan ook bij de toewijzing van
taken zoveel mogelijk het leereffect optimaliseren. In dat geval kan de
medewerker nog steeds productief zijn, maar de productiviteit zal lager
zijn dan in het eerste geval. Door het takenpakket aan te passen kan een
bedrijf dus gradueel variëren van een hoge productiviteit met een laag
leereffect naar een lage productiviteit met een hoog leereffect. Vanuit een
bedrijfseconomisch perspectief zijn kleine veranderingen in het takenpak-
ket waardoor de productiviteit vrijwel op peil blijft maar de medewerker
wel veel meer leert, het interessantst. Ook hier hangt echter een kleine
prijs aan vast in de vorm van een lichte productiviteitsdaling en het is
bekend uit de literatuur dat de verleiding groot is om deze investering niet
te doen. Vooral als het druk is op het werk, is de neiging groot om
investeringen in de ontwikkeling van mensen door hen ervaringsrijke
taken te geven achterwege te laten.
Leren door te experimenteren is dus een verschijnsel dat voortdurend

plaatsvindt, ook zonder dat dit zit ingebed in een wetenschappelijke
structuur. Toch zit er een grens aan wat mensen al experimenterende
kunnen leren op het werk. In feite is een docent die experimenteert met
zijn manier van lesgeven een statisticus6. Hij probeert twee methodes uit
en observeert wat de effecten zijn. Als hij een verschil in resultaat
constateert, vraagt hij zich af of dit toeval is en of er geen andere omstan-
digheden zijn die het verschil kunnen verklaren. Of hij in staat is de
effecten van zijn eigen aanpak vast te stellen, hangt ervan af of hij zelf ook
waar kan nemen wat er met een leerling gebeurt en of er zich voldoende
gevallen voordoen om een effect vast te kunnen stellen.
6
John Anderson, Learning and Memory, John Wiley, New York, 1995 laat zien dat het gedrag
van mensen die leren inderdaad vanuit dit perspectief geïnterpreteerd kan worden.
Er is er een statistische regel die zegt dat de significantie van een waarge-
nomen effect - dat is de mate waarin er zekerheid bestaat over de omvang
van een effect - afhangt van de wortel van het aantal gevallen en de
werkelijke omvang van het effect:
Significantie = √ aantal gevallen x omvang effect

Voor een leraar is het daarom heel goed mogelijk om grote effecten van
zijn manier van lesgeven op korte termijn vast te stellen. Veel van wat er in
het onderwijs gebeurt, heeft echter effecten op langere termijn of wordt
geacht effecten te hebben op langere termijn. Een leraar die zijn leerlingen
slechts een jaar in zijn klas heeft, ziet dus mogelijk niet hoe deze leerlin-
gen zich naderhand ontwikkelen en kan dan dus ook niet leren van zijn
eigen manier van werken. Ook vergt het een ijzeren geheugen om na acht
jaar nog precies te weten welke aanpak is gehanteerd bij een specifieke
leerling. Daarnaast moet een leraar in staat zijn echte effecten van het
toeval te onderscheiden.
De vraag of een manier van lesgeven effect heeft op de aandacht van een
leerling voor de les, is dus typisch een vraag die een docent zelf al
experimenterende goed kan beantwoorden. Als hij 40 weken lang 30 uur
per week lesgeeft, is er sprake van 1200 gevallen, waarbij hij meteen de
effecten vast kan stellen en waarbij de effecten in het algemeen ook vrij
groot zijn. De vraag welke wiskundemethode beter werkt, wordt al lastiger
maar is nog steeds doenlijk. De leraar kan niet van les op les van methode
veranderen omdat de effecten ervan het resultaat zijn van langduriger
gebruik, maar als de effecten groot genoeg zijn, kan hij door vergelijking
van wat de leerlingen in het ene jaar en in het ander jaar opsteken van de
les toch een ruwe inschatting van de effectiviteit maken. Er zijn echter
talloze relevante vragen over het onderwijs die aan het zicht van de
individuele docent ontsnappen. Dat kan zijn omdat hij te weinig gevallen
tegenkomt (“Hoe kan je het beste omgaan met leerlingen met een heel
specifieke aandoening?”), de effecten te klein zijn om goed waar te
kunnen nemen (“Groeit het moreel besef van leerlingen als er in de les af
en toe tijd wordt besteed aan een discussie over ethische zaken?”) en
vooral omdat de belangrijkste effecten van onderwijs op een veel langere
termijn spelen dan een jaar.
4.3 Maatschappelijk leren

Waar een individuele leraar niet meer in staat is om te leren op welke
manier het onderwijs het beste kan worden aangepakt, ligt een rol voor de
school, een groep van scholen of de maatschappij als geheel om deze taak
over te nemen. In essentie kan dit op precies dezelfde manier gebeuren: (1)
Zelfreflectie over wat kan en wat we nog zouden moeten leren, (2)
uitproberen en vergelijken van mogelijkheden en (3) automatiseren. Bij
zelfreflectie gaat het er om goed op een rij te zetten wat er al bekend is
over het onderwijs, welke aanwijzingen er zijn over kansrijke verbeterin-
gen. Naarmate er meer ervaring wordt opgebouwd, ontstaan er theorieën
die gebruikt kunnen worden om de effecten van nieuwe initiatieven al bij
voorbaat in te schatten. Deze inschattingen kunnen achteraf onjuist
blijken te zijn, maar helpen in ieder geval bij het maken van keuzes voor
veranderingen die kunnen worden overwogen.
Op basis van dergelijke inschattingen kan worden besloten om een nieuwe

aanpak ook daadwerkelijk uit te proberen. Hiervan kan uiteraard alleen
geleerd worden als verschillende aanpakken onder vergelijkbare omstan-
digheden met elkaar vergeleken worden. Dit is de kern van experimenteel
onderzoek. Alleen door bij sommige leerlingen, klassen, scholen de ene
aanpak te hanteren en bij de andere vergelijkbare groep de andere aanpak
te hanteren, ontstaat er een duidelijk beeld wat de effecten van de
verschillende aanpakken zijn. Doorgaans kan dit alleen door te
randomiseren.
Regelmatig worden principiële bezwaren tegen de experimentele aanpak

geuit. Het zou niet eerlijk zijn om vergelijkbare mensen verschillend te
behandelen. De praktijk is dat er door veranderingen in het beleid
voortdurend mensen verschillend worden behandeld. Door het toeval dat
twee leerlingen naar twee verschillende scholen gaan, ontstaan er
dezelfde soort verschillen zonder dat ooit duidelijk wordt welke school de
beste aanpak heeft. Terwijl het volstrekt normaal wordt gevonden dat de
individuele leraar experimenteert met zijn manier van werken, wordt dit
van scholen of de overheid niet geaccepteerd. Het woord ‘experiment’ is
overigens verwarrend. In feite wordt er middels allerlei beleidswijzingen,
pilots en de keuzes die scholen maken, voortdurend geëxperimenteerd.
Het onderscheidende kenmerk tussen deze verschillen in beleid en een
echt experiment is niet dat alleen in een experiment wordt geëxperimen-
teerd, maar dat in een experiment systematisch wordt geëxperimenteerd.
Eigenlijk werkt leren voor de maatschappij dus niet anders dan leren voor
individuen. Toch is leren voor de maatschappij nog alles behalve
vanzelfsprekend.
Ten eerste bestaat er nauwelijks een beeld over wat we zouden willen leren
over leren. Er is een groeiend besef van het belang van “evidence based”
beleid, maar als er plotseling een groot budget beschikbaar zou komen
voor een aantal grote experimenten in het onderwijs, wie geeft dan
antwoord op de vraag welke experimenten gekozen zouden moeten
worden omdat ze de grootste toegevoegde waarde voor het onderwijs
hebben? En als deze experimenten zijn uitgevoerd, wat gaan we dan doen
met de uitkomsten? Als niet duidelijk is op welke wijze we het onderwijs
gaan aanpassen aan de bevindingen van deze experimenten, is het
wellicht ook niet zinvol de experimenten uit te voeren. Wat ontbreekt is
een goede beschrijving van wat we weten en wat we niet weten over
onderwijs en de wijze waarop de verschillende onderdelen van het
onderwijs met elkaar samenhangen. Net zoals het Centraal Planbureau de
effecten van het beleid door kan rekenen, zou er een model moeten zijn
om mogelijke aanpassingen in het onderwijs door te rekenen om zo te
kunnen vaststellen waar de meest kansrijke mogelijkheden voor het
onderwijs zitten. Heel basale principes over dat meer tijd voor het een,
minder tijd voor iets anders betekent en over de vraag hoe mensen
reageren op veranderde omstandigheden, worden vaak over het hoofd
gezien. Door voorstellen voor veranderingen in een eenvoudig theoretisch
perspectief te plaatsen, kunnen vaak mogelijke neveneffecten worden
vastgesteld die anders onopgemerkt blijven.
In de tweede plaats is het besef hoe belangrijk gerandomiseerde experi-

menten zijn om effecten te meten, nog niet bij iedereen voldoende
doorgedrongen. Veel mensen die belangrijke beslissingen over onderwijs
moeten nemen, blijken nog steeds te denken dat goede data over de stand
van zaken in ons onderwijs voldoende informatie bieden om tot goede
beslissingen te kunnen komen. De indruk bestaat dat het alleen voor de
statistische fijnproevers interessant is om rekening te houden met
“selection bias” en “endogeniteit” en dat men in de praktijk ook zonder
deze fijnslijperij uit de voeten kan7. In de discussie wordt verder vaak
gewezen op problemen die zich voordoen bij gerandomiseerde experi-
menten. Hieruit wordt te snel de conclusie getrokken dat iedere aanpak zo
zijn voor- en nadelen heeft en er dus ook goede alternatieven voor
experimenten zijn. Bij experimentele methodes doet zich inderdaad een
aantal problemen voor8, maar helaas betekent dat niet dat we belangrijke
vragen over het onderwijs zonder gerandomiseerde experimenten wel
zouden kunnen beantwoorden.
7
Iedereen die wil ervaren hoe belangrijk exogene variatie is om verantwoorde conclusies te
trekken kan op www.socialeconomics.nl terecht voor een aantal beleids-sudoku’s.
8
Vaak is er ook sprake van misverstanden. Een veel gehoord argument is dat onderwijs te
complex is voor experimenten. Omdat er zoveel factoren een rol spelen bij de ontwikke-
ling van leerlingen is het onmogelijk om in een experiment alle andere omstandigheden
onder controle te houden is de gedachte. Deze veelheid aan invloeden is echter juist de
raison d’être van het experiment. Alleen op basis van exogene variatie kunnen de effecten
van een aspect worden onderscheiden van deze andere invloeden. Inspanningen om
omstandigheden onder controle te houden worden alleen gedaan om daarmee de
benodigde steekproef te beperken.
Ook leren door te experimenteren kan heel goed al doende gebeuren. Ook
hier moet gezocht worden naar een goede mix tussen het belang van de
reguliere activiteiten van een school en het belang om te leren over de
beste manier van werken. Een experiment kan zo worden opgezet dat het
leereffect wordt gemaximaliseerd. Ook dan zullen de leerlingen nog profijt
hebben van het onderwijs maar het belang van het experiment staat
voorop. Het is logisch dat het onderwijs hier niet op zit te wachten.
Omgekeerd is er echter ook bij beleidsmakers en het onderwijsveld soms
weinig bereidheid en interesse om vernieuwingen in het onderwijs op een
experimentele wijze door te voeren. Men is dan zo overtuigd van de
effectiviteit van het nieuwe beleid dat men een analyse niet nodig acht, of
zelfs liever heeft dat nooit duidelijk wordt wat de werkelijke effectiviteit is.
Ook bestaat er vaak een naïef beeld dat onderzoekers beleid kunnen
evalueren zonder dat er bij de opzet van het beleid rekening gehouden
hoeft te worden met deze evaluatie. Dit is een illusie. Effectmetingen zijn
alleen mogelijk als op een systematische manier verschillen worden
gemaakt tussen verschillende individuen of groepen. Econometristen die
analyses doen zonder experimentele variatie, gaan op zoek naar het kleine
beetje toeval dat toevallig is ontstaan. Doorgaans is deze variatie te klein
om betrouwbare uitspraken te kunnen doen. Dit betekent dus dat bij de
implementatie van een nieuwe lesmethode of beleid rekening gehouden
moet worden met het belang van de effectmeting. Vrijwel altijd is het
mogelijk om met kleine aanpassingen in het beleid een adequate
effectmeting mogelijk te maken, maar dit vraagt wel om een serieuze
afweging van beide belangen en dus ook om tijdig overleg met
onderzoekers.
Experimenten hebben vooral een grote toegevoegde waarde als het gaat
om effecten die door individuele docenten of afzonderlijke scholen niet
goed vastgesteld kunnen worden. Dat zijn relatief kleine effecten die
spelen op de lange termijn en een grote steekproef vergen. De experimen-
ten die momenteel worden uitgevoerd, zijn echter toch vaak kleinschalig
en gericht op grote effecten op de korte termijn. De reden hiervoor is dat
ook onderzoekers kosten-baten-afwegingen maken. Onderzoekers
worden steeds meer beoordeeld op hun publicaties. Voor hen is het
daardoor aantrekkelijker om snel te kunnen publiceren dan om lang bezig
te zijn met een duur onderzoek dat wellicht relevanter zou zijn geweest
vanuit het perspectief van het onderwijs.
4.4 Wat is nodig om van experimenteel onderzoek een

gewoonte te maken?
Als ook onderzoek doen een kwestie is van kosten en baten valt te
verwachten dat experimenteel onderzoek steeds meer praktijk gaat
worden in het onderwijs. De waarde van onderwijs stijgt waardoor
efficiëntieverhogingen steeds profijtelijker worden. Aan de andere kant
dalen de kosten voor experimenteel onderzoek snel omdat meer en meer
informatie over het onderwijs op computers wordt opgeslagen en omdat
gegevens over onderwijs gekoppeld kunnen worden aan latere uitkomsten
van individuen. Nederland heeft hierbij een uitstekende positie. Het
Sociaal Statistisch Bestand van het Centraal Bureau voor de Statistiek biedt
een erg goede infrastructuur om leerlingen op lange termijn te kunnen
volgen.
Door in Nederland sterk te stimuleren dat niet alleen levenslang leren van
individuen maar ook doorlopend leren van scholen en de maatschappij de
normaalste zaak van de wereld wordt, kan Nederland een voorsprong
opbouwen bij het gericht verhogen van efficiëntie van het onderwijs. Dit
zal een kwestie zijn van vallen en opstaan. Experimenteel onderzoek van
het onderwijs kent nog talloze haken en ogen. Het is echter onverstandig
om te wachten tot voor alle mogelijke complicaties een oplossing is
gevonden. Uitproberen en leren van de fouten hoort immers bij een
serieus leerproces.
Verstandiger is het daarom om experimenteel onderzoek sterk te stimule-

ren om zo dit leerproces op gang te brengen. De overheid kan dit doen
door een aantal randvoorwaarden te creëren die zowel het onderwijsveld
als het onderzoek stimuleren deze kant op te gaan.
In de eerste plaats zou van scholen verwacht kunnen worden dat ze alleen
veranderingen doorvoeren als hiervoor voldoende bewijs van effectiviteit
is en zij ook actief meerwerken aan experimenten die onze kennis
vergroten over de werking van het onderwijs. Experimenteel onderzoek is
in essentie niet duur. Met relatief kleine inspanningen kan de introductie
van nieuwe methodes routinematig via een experimenteel design worden
doorgevoerd en zouden scholen cruciale aspecten van het onderwijs
kunnen randomiseren om zo strategisch belangrijke informatie over het
onderwijs te vergaren. Het ligt voor de hand dat de keuzes voor de
ontwikkelingen van onderzoek niet alleen door de overheid worden
gemaakt, maar dat scholen hierbij ook een belangrijke rol krijgen. Dit
maakt het ook mogelijk dat scholen op basis van een doelgerichte
ontwikkeling hun eigen profiel creëren. Veel experimenteel onderzoek
vraagt echter om een grotere schaal dan een afzonderlijke school. Scholen
zouden daarom samenwerkingsverbanden kunnen vormen waarin samen
wordt gewerkt aan de verbetering van het onderwijs. Dergelijke samenwer-
king hoeft niet regionaal te zijn, maar is juist extra interessant als scholen
overeenkomsten hebben in hun visie op onderwijs.
Uitgebreide metingen van effecten op korte en langere termijn zijn
cruciaal voor goede experimentele analyses. Als dergelijke metingen
afzonderlijk per onderzoek opgezet moeten worden, werkt dat sterk
kostenverhogend. Het is daarom belangrijk om standaard een goed
meetinstrumentarium te hebben waarmee de inputs in het onderwijspro-
ces in kaart worden gebracht en de vorderingen van leerlingen in het
onderwijs worden gevolgd. Hierbij is het van belang dat adequate keuzes
worden gemaakt over de gegevens die worden verzameld. Omdat derge-
lijke informatie ook van groot belang is om adequaat sturing te geven aan
een school, gaan de belangen van experimenteel onderzoek en resultaat-
gericht onderwijs hier hand in hand.
Daarnaast zou de overheid waardevolle experimenten in het onderwijs

kunnen stimuleren door de beschikbare kennis over het onderwijs bijeen
te brengen zodat beleid en onderwijsveld hier gebruik van kunnen maken.
Modellen waarmee de effecten van beleidsveranderingen voor de
ontwikkeling van kinderen kunnen worden doorgerekend, zouden een
belangrijke input kunnen leveren voor de discussie welke experimenten
de grootste toegevoegde waarde voor het Nederlandse onderwijs hebben.
Ten slotte is ook openheid van de gegevens voor het onderzoek van groot
belang voor het slagen van deze expeditie. Goed onderzoek kan niet
worden afgedwongen door alleen methodologische eisen te stellen aan
het onderzoeksdesign. Door ook het praktijkgeoriënteerde onderwijson-
derzoek bloot te stellen aan de wetenschappelijke discussie blijven de
betrokkenen scherp en ontstaan nieuwe inzichten en nieuwe interpreta-
ties. Bovendien is het beschikbaar stellen van onderzoeksdata de eenvou-
digste manier om het onderzoek van wetenschappers in Nederland en
daarbuiten te richten op voor ons land beleidsrelevante kwesties9. En dat is
belangrijk want – om een beroemde econoom te citeren – experimenten
kunnen heel nuttig zijn voor onderzoek maar mogen nooit een reden zijn
om te stoppen met denken.
9
Lex Borghans, Nederlandse data zijn te duur, Economisch Statistische Berichten, 88(4397),
2003, pp. 132‑133.
Literatuur
Anderson, J. Learning and Memory, John Wiley, New York, 1995 laat zien dat het gedrag van
mensen die leren inderdaad vanuit dit perspectief geïnterpreteerd kan worden.
Borghans, L. (2006). “Zonder van de Tijd” Leren in Nederland vanuit een economisch
perspectief. Oratie Universiteit Maastricht.
Borghans, L. Nederlandse data zijn te duur, Economisch Statistische Berichten, 88(4397),
2003, 132‑133.
Borghans, L., B. Golsteyn en A. de Grip (2006). Meer werken is meer leren; Determinanten van
kennisontwikkeling. CINOP, Den Bosch.
Rivkin, S., E. Hanushek en J. Kahn. Teachers (2005). Schools and Academic Achievement.
Econometrica, 73-2, 417-458, 2005.
Loo, J. van, Training, Labor Market Outcomes and Self-Management. Proefschrift,
Universiteit Utrecht.
05
Naar een nieuwe
opzet van de
onderwijsweten
schappen?
Jacquelien Bulterman-Bos
Oprichter van Open Doors Education
In dit artikel probeer ik een aantal factoren op het spoor te komen die
de kloof tussen onderzoek en praktijk in de hand werken. Met opzet
begin ik met een evidence based onderzoek, gefinancierd uit het
‘experimenteerbudget’ dat bedoeld is om een bijdrage te leveren aan
evidence based beleid. De studie gaat over vroege selectie in het
voortgezet onderwijs en is daarmee nauw gelieerd aan discussies
rondom de basisvorming, een van de (mislukte) onderwijsvernieuwin-
gen. Geeft evidence based onderzoek betrouwbaarder informatie,
waardoor onderwijsvernieuwingen niet meer hoeven te mislukken? Ik
laat zien dat het gecompliceerder is. Ook het soort kennis dat leraren
nodig hebben moet in de analyse meegenomen worden. Iedere
succesvolle aanpak komt mede tot stand dankzij de persoonlijke
vaardigheden van leraren. Die kennis is onlosmakelijk verbonden met
de mensen die bij de aanpak betrokken zijn. Onderzoekers ontwikke-
len kennis over onderwijs, dat is iets anders dan kennis hebben van
onderwijzen. De medische wetenschap functioneert anders. Medische
wetenschappers ontwikkelen geen theorie over genezen, maar ze
ontwikkelen praktijken waarin mensen genezen worden. In de
medische wetenschap zijn ‘kennen’ en ‘handelen’ met elkaar verbon-
den. In deze bijdrage stel ik de vraag of er voor de scheiding tussen
kennen en handelen in de onderwijswetenschappen tegenwoordig
nog goede argumenten zijn. Ik betoog dat een verbinding tussen
kennen en handelen perspectieven biedt op een betere relatie tussen
onderzoek en praktijk. Dat betekent een nieuwe opzet van de onder-
wijswetenschap, één waarbij de disciplinaire standaarden in de
medische wetenschap als voorbeeld dienen.
5.1 Inleiding
De teleurstellingen over de onderwijsvernieuwingen van de laatste
decennia hebben de kwaliteit van het onderwijsbeleid ter discussie
gesteld. Was er wel voldoende ‘evidence’ om de onderwijsvernieuwingen
door te voeren? Zou het onderwijsbeleid en onderwijsonderzoek in het
vervolg niet meer evidence based moeten worden? Ook in onderzoeks-
kringen valt de term evidence based regelmatig. Nieuwe instituten worden
geopend en bestaande instituten sieren zich met die naam. Eigenlijk is dit
verwonderlijk. Is wetenschappelijk onderzoek dan niet per definitie
evidence based?
De discussie over evidence based onderzoek kan niet los gezien worden
van de kritiek op de onderwijswetenschappen. Sommigen spreken zelfs
van een crisis in de geloofwaardigheid van de onderwijswetenschap (Kelly,
2003; Lageman & Shulman, 1999; Lagemann, 2000).
De evidence based beweging in de Verenigde Staten kan gezien worden als
één van de antwoorden die op deze crisis wordt gegeven (Feuer, Towne &
Shavelson, 2002). Door middel van strengere methodologische eisen
probeert deze beweging de kwaliteit van het onderwijsonderzoek en
-beleid te verbeteren. De beweging heeft een sterke voorkeur voor een
experimentele aanpak met grote groepen die het liefst at random zijn
samengesteld. De Onderwijsraad (2006) spreekt ook een voorkeur uit voor
experimenten met grote groepen, maar wil toch onderzoek dat tot minder
harde kennis leidt, in ere houden. Alvorens ik dieper in ga op de kloof
tussen onderzoek en praktijk, wil ik de vraag beantwoorden of het
waarschijnlijk is dat deze nieuwe aanpak in de toekomst tot succesvoller
onderwijsbeleid zal leiden. Daartoe gebruik ik een voorbeeld van een
onderzoek over uitstel van selectie. Daarna probeer ik aan de hand van dit
onderzoek factoren op het spoor te komen die de kloof tussen onderzoek
en praktijk in de hand werken.
5.2 De kloof tussen onderzoek en praktijk: evidence based

onderzoek naar gevolgen van vroege selectie
Voorafgaande en tijdens de invoering van de basisvorming is er veel
gezegd en geschreven over uitstel van selectie. Ook nu de basisvorming als
‘mislukt’ wordt beschouwd, blijft de discussie hierover aanhouden. De
vroege selectie zou met name de zwakkere leerling vastpinnen op een laag
niveau en daarmee de doorstroom naar het hoger onderwijs in gevaar
brengen. Het Centraal Planbureau (Van Elk, Van der Steeg & Webbink,
2009) wilde een einde maken aan speculaties en zich daarbij baseren op
evidence. De onderzoekers gebruikten een harde methode: ze namen een
grote groep leerlingen die allemaal ooit een mavoadvies hadden gekregen
en verdeelden die in een subgroep die op een categorale mavo terecht was
gekomen, en in een subgroep die naar een heterogene brugklas van mavo/
havo (mh) of mavo/havo/vwo (mhv) was gegaan.
Bij beide groepen, die bij aanvang even intelligent bleken, ging het CPB na
hoeveel leerlingen in het hoger onderwijs terecht waren gekomen. Uit de
studie bleek dat de groep die ooit in een heterogene mh(v)-klas terecht
was gekomen, beduidend meer kans had op participatie in het hoger
onderwijs. Vervolgens onderzocht het CPB of heterogene klassen de kans
voor de havisten op participatie in het hoger onderwijs beïnvloedde, maar
nee: havisten die met een mavo’er in de brugklas hadden gezeten, hadden
even veel kans op participatie in het hoger onderwijs als de anderen.
Eindelijk leek er evidence te zijn voor wat zo velen altijd al hadden gedacht:
vroege selectie belemmert de participatie in het hoger onderwijs. De
effecten van de plaatsing in het eerste jaar van het voortgezet onderwijs
waren nog jaren later te merken, constateerde het Planbureau. Het
concludeerde dat de deelname aan het hoger onderwijs vergroot kan
worden door het stimuleren van gecombineerde brugklassen, waarin
leerlingen met mavo- of havo-advies één of twee jaar bij elkaar gehouden
worden. De kranten stonden er vol van: “mavo’er gebaat bij gemengde
brugklas” (Trouw 6-3-09) en “Brugklassers halen hogere diploma’s”
(Volkskrant 5-3-09).
5.3 Een andere kijk op de data

De harde resultaten van het CPB zijn opzienbarend; haast te mooi om waar
te zijn. In ander Nederlands onderzoek, waarbij ook homogene en
heterogene groepen werden vergeleken, konden nauwelijks effecten van
heterogeen groeperen worden gevonden (De Vries, 1992). Dar en Resh
(1994, 1986, 1985) vonden in het buitenland wel positieve effecten van
heterogene klassen voor zwakke leerlingen, maar negatieve effecten voor
goede leerlingen. Voorafgaande aan en tijdens de basisvorming is er veel
met heterogene klassen geëxperimenteerd; ze komen nog steeds veel
voor. Zou de praktijk het niet gemerkt moeten hebben als de voordelen
van heterogene klassen zo evident waren? Hoe is CPB aan haar onverdeeld
positieve conclusies gekomen?
In het rapport is een tabel te vinden, waarin bij het eerste cohort uit 1989
per jaar precies staat aangegeven in welk schooltype de leerlingen zich
bevinden. In het eerste jaar zit de ene groep op een categorale mavo en de
andere groep in een mh(v)-klas. Na dat jaar zie je de opstroom naar de
havo in de heterogene klassen, die er (uiteraard) in de homogene klassen
niet is. Na 9 jaren zie je dat er 5% meer mh(v)’ers in het hoger onderwijs
zitten dan categorale mavoërs. De conclusies van het CPB zijn dus op de
‘feiten’ gebaseerd. Maar de tabel, die alleen voor het eerste cohort in het
rapport staat, laat ook nog iets anders zien wat de onderzoekers laten
liggen. Direct na het eerste jaar is de stroom van de leerlingen die lager
dan de mavo terecht komt 5% groter in de heterogene klassen. Na 9 jaar
participeert uit de heterogene klassen 5% meer leerlingen in het hoger
onderwijs, maar er heeft ook 5% meer leerlingen het onderwijs verlaten,
terwijl die 5% in de homogene klassen nog op school zit. Let het CPB wel
op participatie in hoger onderwijs, maar niet op afstroom en uitstroom?
Deze vraag wordt urgenter als ik in een krantenartikel uit 2002 lees dat het
CPB heeft vastgesteld dat het aantal scholieren dat moet overstappen naar
een lager schooltype, sinds begin jaren negentig bijna is verdubbeld
(Volkskrant, 18-4-2002 “Middelbare scholier grijpt vaak te hoog”). Als
verklaring stelt het CPB dat de groei van het aantal brede scholengemeen-
schappen de afstroom in de hand werkt. Beide onderzoeken bestrijken
dezelfde tijdsperiode. Hoe zit dit? Hebben leerlingen in heterogene
groepen een grotere kans op participatie in het hoger onderwijs, maar ook
een grotere kans om lager dan de mavo terecht te komen?
Met deze prangende vraag heb ik een van de onderzoeker van het CPB
opgebeld: acht hij het mogelijk dat meer kans op participatie in het hoger
onderwijs samen gaat met meer kans op participatie in schooltypen lager
dan de mavo? Zijn reactie was dat deze vraag geen onderdeel was geweest
van het onderzoek. Het CPB had gekeken wat de kansen waren voor
leerlingen uit verschillende brugklassen om in het hoger onderwijs
terecht te komen, want het CPB wilde nagaan wat er wáár is van de
opvatting (geventileerd in de internationale literatuur en o.a. de OECD) dat
vroege selectie de participatie in het hoger onderwijs in gevaar brengt.
Ook de conclusie dat havisten niet onder een mh(v)-brugklas lijden roept
vragen op: als het voor leerlingen met een mavoadvies goed is om in
klassen te zitten met havisten, waarom zou het dan voor havisten niet ook
goed zijn om met vwo’ers in de klas te zitten? Uit het rapport blijkt echter
dat het CPB een bepaalde definitie van hoger onderwijs hanteert: het hbo
en het wo worden als één groep behandeld. Tussen mbo en hbo maakt het
CPB dus wel onderscheid, maar tussen hbo en wo niet. Zo wordt uit de
onderzoeksresultaten niet duidelijk of een havist in een mh-klas soms
minder kans heeft om door te stromen naar het wo. Daarom stelde ik de
onderzoeker ook de vraag of de conclusie dat havisten geen schade
ondervinden van brugklassen met mavoërs, mede verklaard wordt door de
definitie van hoger onderwijs van het CPB. Zijn reactie was dat het CPB
dezelfde definitie van hoger onderwijs had gehanteerd als in de Lissabon-
doelstellingen; daarin wordt ook geen onderscheid gemaakt tussen hbo en
wo, maar wel tussen mbo en hbo.
Het lijkt zeer waarschijnlijk dat de conclusies van het CPB de samenleving
op het verkeerde been zetten. Van de evidente voordelen van heterogene
brugklassen blijft weinig over als heterogene klassen zowel de kansen op
participatie in het hoger onderwijs vergroten als de kansen op uitval of
afstroom vergroten. Wat zou er gebeuren als dit evidence based onderzoek
zou worden omgezet in evidence based beleid? Zou dit dan weer tot
nieuwe teleurstelling leiden, zoals dat bij de basisvorming ook is gebeurd?
5.4 Fragmenten uit een complex geheel

Aan de hand van dit voorbeeld ga ik factoren opsporen die de kloof tussen
onderzoek en praktijk in de hand werken. Ik wil benadrukken dat de
onderzoekers van het CPB te werk gaan op een manier die niet ongebrui-
kelijk is. Het is niet mijn bedoeling om dit specifieke onderzoek te
bekritiseren, maar om inzichtelijk te maken waar de kloof tussen
onderzoek en praktijk vandaan komt. Met betrekking tot de vraagstelling
over de gevolgen van vroege selectie, brengt het CPB inderdaad een hard
feit boven tafel: in heterogene klassen hebben leerlingen meer kans om
hoger op te komen. Dit feit is echter een fragment uit een complex geheel.
Wanneer andere fragmenten aan dit feit worden toegevoegd ontstaat een
compleet ander beeld. Het CPB-onderzoek laat zien dat de keuze van de
onderzoeksvragen heel duidelijk van invloed is op de resultaten die het
onderzoek oplevert. Dit illustreert dat de onderzoeker – ook de harde
evidence based onderzoeker – geen objectieve kennis aanlevert, maar aan
de hand van empirische gegevens bepaalde inzichten construeert.
Het onderzoek van het CPB is slechts één voorbeeld van een onderzoek dat
een fragment uit de werkelijkheid vergroot. In het algemeen geldt echter
dat onderzoekers uit een oneindig aantal factoren moeten besluiten wat ze
wel en wat ze niet gaan onderzoeken. Ze zijn dus altijd fragmentarisch
bezig. Dit geldt - op een andere manier en wellicht (soms) in mindere mate
- ook voor kwalitatieve onderzoekers. Vervolgens worden de resultaten
niet alleen mede bepaald door de manier waarop zij vragen stellen, maar
ook door de manier waarop zij onderzoeksinstrumenten ontwerpen, data
interpreteren en conclusies afleiden. Alle onderzoekers construeren dus
kennis met behulp van hun eigen vooronderstellingen.
Onderwijs vindt plaats binnen een sociaal-cultureel krachtenveld;

wanneer onderzoekers definities hanteren die sterk afwijken van de
participanten in dat krachtenveld of vooronderstellingen hanteren waar
niemand in de praktijk in gelooft, leidt dit tot (onnodige) misverstanden.
Fragmenten van kennis kunnen het beeld danig vertekenen. Wanneer
onderzoekers relevante factoren over het hoofd zien, kan onderzoek de
samenleving op het verkeerde been zetten. De samenleving ervaart dan
een kloof tussen onderzoek en praktijk. Dit geldt ook voor experimenteel
onderzoek met grote groepen!
5.5 Theoretische noties als eigen werkelijkheid

Ik laat het onderzoek van het CPB nog even op mijn bureau liggen, terwijl
ik verder op zoek ga naar factoren die de kloof tussen onderzoek en
praktijk in de hand werken. We hebben gezien dat onderzoekers kennis
construeren. In de manier waarop ze dat doen, speelt echter ook de
academische literatuur een belangrijke rol. Als we ons afvragen hoe er een
koof tussen onderzoek en praktijk kan ontstaan, is het verstandig om ook
te kijken naar de manier waarop theoretische noties in de literatuur tot
stand komen.
De constructie van theorie is (meestal) een internationale aangelegen-

heid; theoretische opvattingen over onderwijs komen zelden op grond van
een enkele studie tot stand. Onderzoeksresultaten over de effecten van
homogene en heterogene klassen komen uit heel veel landen, zo ook uit
de Verenigde Staten. Een onderzoeker uit de VS die veel onderzoek doet op
het terrein van vroege selectie, is Jeanie Oakes (1985), die op allerlei
manieren aantoont hoe zwakke leerlingen daar de dupe van zijn. Haar
publicaties worden overal ter wereld gebruikt.
Om beter te begrijpen hoe de onderzoeksresultaten van Oakes tot stand

komen, is het goed om te kijken hoe het Amerikaanse voortgezet
onderwijs in elkaar zit. In de VS komt het vaak voor dat afzonderlijke
lessen op verschillende niveaus worden aangeboden (ook in het basison-
derwijs!), maar anders dan bij ons bestaat er niet de mogelijkheid om na
afloop van een periode door te stromen naar een hoger niveau. Na vier jaar
stromen alle leerlingen van de high school uit. Ongeacht hun niveau staan
ze allemaal voor dezelfde opgave om toegelaten te worden tot colleges of
universiteiten. In zo’n context komt vroege selectie harder aan dan in de
Nederlandse context, waarin leerlingen kunnen stapelen. Dat Amerikaans
onderzoek uitwijst dat deze vroege selectie nadelig is voor zwakke
leerlingen, hoeft dus geen verbazing te wekken. Dat geldt in de VS, maar
geldt het ook in Nederland?
Echter, wanneer dergelijke onderzoeksresultaten in de internationale

literatuur verschijnen, weten niet alle lezers onder welke omstandigheden
de resultaten tot stand gekomen zijn; dat staat er niet volledig bij. Volledig
de omstandigheden beschrijven, is onbegonnen werk. De omstandighe-
den worden uiteraard bepaald door het onderwijssysteem ter plaatse,
maar daarnaast zijn er heel veel moeilijk grijpbare factoren die de situatie
ter plaatse bepalen, zoals het klimaat in de groep, de klik tussen de
betrokkenen enz. In ieder onderzoek zitten ‘super unknowns’, waardoor
het maar de vraag is of onderzoeksresultaten überhaupt generaliseerbaar
zijn (St. Clair, 2005). Als dezelfde studie nogmaals uitgevoerd wordt, is het
helemaal niet bijzonder dat de resultaten niet consistent zijn. Zelfs success
for all – het paradepaardje van de evidence based beweging in de VS –
bleek moeilijk repliceerbaar (Berliner, 2002). Berliner (2002) noemt de
onderwijswetenschap daarom terecht “the hardest science of all”. Toch is
het de gewoonste zaak ter wereld dat onderzoekers werk van anderen
citeren in de veronderstelling dat de resultaten die elders geconstateerd
zijn, ook onder de plaatselijke omstandigheden zullen opgaan.
Hoewel er in de onderwijswetenschap geen inzichten bestaan waar

iedereen het over eens is (Burkhart & Schoenfelt, 2003), hanteren
onderzoekers toch theoretische noties. Onderzoekers die zich aan-
gesproken voelen door elkaars ideeën, zoeken elkaar op, zetten elkaars
bril op en citeren elkaars werk. Wanneer het vermoeden rijst dat een
bepaald inzicht ‘fout’ is – zoals het geval was bij het inzicht dat hoge
verwachtingen van leraren tot hoge leerresultaten leiden, want onderzoe-
kers hadden systematisch oorzaak en gevolg met elkaar verward (Dusek,
1985; Wineburg, 1987) - kan het ontzettend lang duren eer het inzicht in de
onderzoeksgemeenschap doordringt. Een onderzoeker moet een kritische
publicatie hierover toevallig treffen!
De onderwijskundige discipline is zodanig opgebouwd dat weten-

schappers niet betrokken zijn bij het onderwijs aan leerlingen. Er wordt
niet voorzien in een gelegenheid die onderzoekers de mogelijkheid biedt
om te controleren of theoretische noties uit de literatuur recht doen aan
de praktijk ter plaatse.
Zo kom ik op een volgende factor, die de kloof tussen onderzoek en

praktijk in de hand werkt. Onderzoekers houden zich louter bezig met
(geïsoleerde) data en met theoretische noties uit de literatuur. Ze kunnen
niet nagaan wat die theoretische noties in de praktijk voorstellen. De
theorie gaat zo een eigen leven leiden. Het ontstaan van een kloof tussen
onderzoek en praktijk ligt dan voor de hand.
Het kan gebeuren dat de OECD, die zich ook graag op wetenschap wil
baseren, de theorie leest en Nederland kapittelt vanwege de vroege
selectie (terwijl Nederland behoort tot de landen met de kleinste spreiding
van onderwijsresultaten in wiskunde en leesvaardigheid; juist aan de
onderkant van de verdeling doen we het goed (Van der Werfhorst & Mijs,
2007). Vervolgens tonen onderzoekers van het CPB met harde gegevens het
gelijk van de theorie aan en de OECD aan. De ene waarheid bevestigt de
andere, maar van wat er werkelijk in het onderwijs gebeurt, kan het ver af
staan.
5.6 Distantie of relevantie?

Het gevaar van het geven van een voorbeeld is dat er tegengeworpen kan
worden dat de fouten die het CPB maakt slechts incidenteel zijn. Maar het
gaat mij er niet om dit specifieke onderzoek te bekritiseren – op ieder
onderzoek is wel iets aan te merken – maar erop te wijzen dat onderzoek
altijd fragmentarisch is, terwijl de disciplinaire standaarden onderzoekers
niet in aanraking brengen met het grote geheel namelijk de onderwijs-
praktijk aan leerlingen met al zijn facetten.
In de onderwijswetenschappen functioneren onderzoekers op afstand van

het onderwijsveld. Ooit werd aangenomen dat distantie de objectiviteit
zou bevorderen; veel onderzoekers hoopten dat wetenschap tot onbe-
twistbare, ware en harde inzichten zou kunnen leiden. Tegenwoordig zijn
meer onderzoekers – ook in de exacte wetenschappen (Bronowski, 1978)
het met elkaar eens dat objectiviteit voor mensen een onbereikbaar ideaal
is (Eisner, 1992). Alle kennis is interpretatie, maar je kunt wel een onder-
scheid maken tussen een geloofwaardige en een ongeloofwaardige
interpretatie, tussen bruikbare en onbruikbare interpretaties. De vraag is
dus niet of onderzoekers kennis construeren, maar hoe ze dat doen.
Construeren onderzoekers kennis op een manier die relevant is voor de
praktijk? Een volgende vraag is of onderzoekers de praktijk voldoende
kennen om te kunnen weten wat relevant is voor de praktijk. Als niet de
vraag is hoe onderzoekers zo min mogelijk interpreteren (wat het geval is
bij het misplaatste ideaal van objectiviteit), maar hoe onderzoekers zo
goed mogelijk interpreteren, zouden onderzoekers dan niet veel meer in
het onderwijsveld moeten werken in plaats van er naast?
5.7 Kennis zonder vaardigheden

Als de conclusies van het evidence based onderzoek van het CPB vertaald
zouden worden in evidence based beleid, zouden er meer mavo-havo-
(vwo) brugklassen komen. Voor leraren heeft dat nogal wat consequenties.
Uit recent onderzoek blijkt dat zelfs zeer goede en talentvolle vo-docenten
(die vijf tot zes klassen per dag hebben) het niet gemakkelijk vinden om
alle talenten binnen zo’n klas tot hun recht te laten komen (Sligte,
Bulterman-Bos & Huizinga, 2009). Omgaan met heterogeniteit plaatst
leraren voor de nodige dilemma’s: zwakke leerlingen trekken zich niet
automatisch op aan de sterken, maar het komt ook voor dat goede
leerlingen gaan onderpresteren (Bulterman-Bos, 2004, 2007). Het
CPB-onderzoek is niet bedoeld om leraren een bepaalde aanpak voor te
schrijven; toch hebben de conclusies gevolgen voor leraren. Zou het CPB
overzien wat het van leraren vraagt?
In de zoektocht naar factoren die de kloof tussen onderzoek en praktijk in

de hand werken, stuiten we hier op een tamelijk fundamenteel probleem.
Het goed omgaan met dilemma’s (wat nodig is in heterogene klassen)
vraagt niet zozeer om kennis, maar om persoonlijke vaardigheden
(Lampert, 1985). Tegenwoordig worden leraren wel vergeleken met andere
beroepen waar vaardigheden belangrijk zijn: pianisten, artsen etc.
(Berliner, 2001). Een beroepspianist kan de kennis om een moeilijke
sonate te spelen niet via artikelen overdragen op een leerling. De leerling
moet zelf oefenen. Ziekten diagnosticeren kan ook niet uitsluitend uit
boeken geleerd worden; artsen moeten hun zintuigen ontwikkelen. Bij
lichamelijk onderzoek gebruiken artsen hun eigen lichaam (hun tastzin,
hun reukzin, hun visueel waarnemingsvermogen, hun auditief waarne-
mingsvermogen) om te onderzoeken wat er met een patiënt aan de hand
is. De kennis die artsen ontwikkelen door veel patiënten te zien, leidt niet
zozeer tot kennis die in hun hoofd zit en die opgeschreven kan worden in
artikelen, maar tot kennis die in hun lichaam – in de ontwikkeling van
hun zintuigen – zit. Deze kennis wordt tacit knowledge genoemd. Deze
kennis is niet zomaar overdraagbaar op anderen, want hij is onderdeel van
iemands manier van zijn (Polanyi, 1958, 1967).
Juist op het vlak van dit soort vaardigheden ligt een belangrijke oorzaak
van de kloof tussen onderzoek en praktijk. Goede leraren hebben meer
kennis nodig dan de kennis die in boeken opgenomen kan worden. Ze
moeten weten hoe ze sfeer kunnen scheppen, leerlingen motiveren etc.
Deze kennis verwerven zij onder andere door ervaring, door handelen.
In het academische domein is de kennis die voortkomt uit handelen met

leerlingen en klassen grotendeels afwezig. Binnen de huidige onder-
wijskundige discipline zijn kennen en handelen van elkaar gescheiden:
onderzoekers ontwikkelen kennis, maar gebruiken die kennis niet. In de
theorie ontstaan allerlei begrippen over aanpakken: adaptief lesgeven,
leerlinggericht lesgeven etc. Wanneer je echter uit zou moeten leggen wat
het betekent om leerlinggericht les te geven, dan schieten woorden te
kort, want dat is in iedere situatie weer anders. Hoe kun je vanaf een
afstand aangeven hoe je contact maakt met een onbekende leerling? Een
belangrijk deel van de theoretische begrippen in de literatuur doet feitelijk
een beroep op factoren die teruggaan op het geheim (namelijk de
vaardigheden) van bepaalde personen.
Het gemak waarmee er begrippen over aanpakken vigeren, suggereert dat

kennis van die begrippen op zichzelf voldoende is, alsof met kennis van
die begrippen de aanpak gerealiseerd kan worden. Geïsoleerd van mensen
die de vaardigheden belichamen, zijn die begrippen een lege huls
(Bulterman-Bos, 2008a en b). Om een enigszins boude vergelijking te
trekken: als je een boekje gelezen hebt over hoe je bij voetbal moet scoren,
wil dat nog niet zeggen dat je de wedstrijd wint.
Evidence based onderzoek kan best uitwijzen dat een bepaalde aanpak
effectief was. Kennelijk hebben leraren en leerlingen in kwestie dan over
de juiste kennis en vaardigheden beschikt en voldaan aan de eisen die de
onderzoekers in hun hoofd hadden. Dat gegeven garandeert echter niet
dat andere leraren, die een wetenschappelijke beschrijving van die aanpak
krijgen, die vaardigheden automatisch ook hebben. Wie denkt dat
evidence based beleid aanpakken kan voorschrijven waarvan de effectivi-
teit bewezen is, veronderstelt ten onrechte dat leraren al hun kennis
rechtsreeks uit de boekenkast kunnen halen. Was het maar wáár dat
onderwijzen zo eenvoudig was!
De scheiding tussen kennen en handelen resulteert dus in kennis over

aanpakken in plaats van de vaardigheden om die aanpakken te realiseren.
Zo ontstaat retoriek over hoe het zou moeten, terwijl de bijbehorende
goede praktijk er niet bij geleverd kan worden. Ondertussen kunnen de
onderzoekers niet overzien wat zij van leraren vragen. Zo ontstaat een
kloof tussen onderzoek en praktijk.
5.8 Onderzoek leidt niet tot waarheden die op zichzelf
kunnen staan
De aanname dat onderwijs evidence based zou kunnen zijn, waarbij
gebruik wordt gemaakt van harde kennis en werkzame aanpakken verraadt
dat onderwijs geconceptualiseerd wordt alsof het een technische activiteit
zou zijn. Met deze begrippen wordt een dynamisch-relationeel object als
onderwijs door een statisch-mechanistische bril bekeken – en zo ontstaat
een vertekend beeld. Alleen al dit taalgebruik weerspiegelt de kloof tussen
onderzoek en praktijk! Zoals Schön (1983) zo overtuigend heeft aan-
getoond, voldoet het model van de technische rationaliteit in de (onder-
wijs)praktijk niet. Iedere situatie is weer anders. Daarom is het tamelijk
grote onzin om te spreken van harde kennis over werkzame aanpakken.
Door ervaring kunnen leraren veel leren, maar er blijft gelden dat in het
verleden behaalde resultaten geen garantie geven voor de toekomst. De
werkzaamheid van bepaalde aanpakken bestaat juist uit de flexibiliteit van
de leraar om de aanpak aan de omstandigheden aan te passen. Kwalitatief
hoogwaardig onderwijs moeten op de werkvloer iedere keer opnieuw
geconstrueerd worden en kan dus niet van bovenaf worden georganiseerd.
Daarmee is echter niet gezegd dat het gebruik van mechanistische

onderzoeksdesigns altijd uit den boze is. Onder gegeven omstandigheden
kan het heel nuttig zijn om te kijken wat de resultaten van een bepaalde
interventie zijn geweest. Het moet dan wel duidelijk zijn dat het slechts
een mechanistische manier van kijken is, die zowel aspecten van de
werkelijkheid onthult als verhult, maar niettemin het inzicht kan
verdiepen. Juist omdat onderwijzen voor een belangrijk deel een persoon-
lijke vaardigheid is die in iedere nieuwe situatie anders moet worden
ingezet, kunnen de resultaten uit onderzoek – ongeacht de keuze voor het
design – wel het inzicht verdiepen, maar niet als op zichzelf staande
waarheden worden beschouwd.
5.9 Kunnen onderzoekers zonder tacit knowledge?

We zijn een aantal factoren op het spoor gekomen die de kloof tussen
onderzoek en praktijk in perspectief plaatsen. Onderzoek leidt slechts tot
een fragment van kennis over een uiterst complex en multidimensioneel
gegeven dat de onderwijspraktijk is. Op grond van die fragmentarische
kennis ontstaan (vaak eendimensionele) theoretische inzichten waarvan
niemand kan controleren in hoeverre ze op lokale omstandigheden van
toepassing zijn. Die theoretische inzichten betreffen vaak kennis over
vaardigheden in plaats van de vaardigheden zelf. Omdat onderzoeksresul-
taten mede door de persoonlijke vaardigheden van leraren worden
bepaald, kunnen ze niet als op zichzelf staande waarheden worden
beschouwd.
Onderwijzen is niet alleen een kunst, maar ook een kunde – dat ben ik met
Bosker (2008) eens. Kennis die wél in boeken weergegeven kan worden, is
uiteraard ook belangrijk voor leraren. Iedere praktijkbeoefenaar heeft
bovendien behoefte aan een goede theorie – leraren dus ook. We hebben
echter gezien dat de uitkomsten van onderzoek een gevolg zijn van een
constructieproces, waarbij het onvermijdelijk is dat de vooronder-
stellingen van onderzoekers binnen sluipen. Die vooronderstellingen
worden gevormd door de literatuur en we hebben gezien dat die nogal
eens een eigen leven leidt en ver van de (locale) praktijk af staat. We
hebben ook gezien dat onderzoeksresultaten niet als op zichzelf staande
waarheden beschouwd kunnen worden. Zijn onderzoekers, die zo ver van
de praktijk af staan, geëquipeerd om de kennis te construeren die voor de
mensen in de klas relevant is? Wie nooit met groepen kinderen in
aanraking komt, heeft een ander referentiekader dan wie de hele dag met
leerlingen bezig is. Als onderwijzen zowel een kunst als een kunde is, dan
is het de vraag of de kunde ontwikkeld kan worden door mensen die de
kunst niet verstaan!
Het begrip tacit knowledge van Polanyi (1958, 1967) wordt vaak geciteerd in
de onderwijswetenschappen, maar wordt dan alleen op practici van
toepassing geacht. Daarbij wordt vergeten dat Polanyi wetenschaps-
filosoof was, die benadrukte dat alle vormen van wetenschappelijke
kennis door dagelijkse kennis worden gevoed (Gelwick, 1977). Na een
carrière in de exacte wetenschappen wijdde hij zich aan de wetenschapsfi-
losofie, omdat hij om zich zorgen maakte over misplaatste opvattingen
over wetenschappelijke distantie die hij met name in de sociale weten-
schappen signaleerde. Volgens hem was die wetenschappelijke distantie
destructief en werkte voornamelijk leegheid van onderzoek in de hand. Hij
liet zien dat onderzoekers heel intensief met het object van studie moeten
omgaan, iets wat in veel exacte wetenschappen vanzelf spreekt. Intensieve
omgang met het object van studie verandert de onderzoeker, waardoor hij
of zij nieuwe aspecten van het onderzoeksobject leert zien en vruchtbaar-
dere manieren kan ontwikkelen om fragmenten van kennis met elkaar in
verband te brengen. Polanyi benadrukte dus niet dat leraren tacit
knowledge nodig hebben, maar dat onderzoekers deze nodig hebben!
5.10 De medische discipline: verbinding tussen kennen en

handelen
De medische wetenschap is opgezet volgens andere disciplinaire standaar-
den dan de onderwijswetenschappen. In klinische wetenschappen
overlapt de rol van de onderzoeker met die van de professional. Het doel
van de wetenschap is niet het ontwikkelen van theoretische kennis, maar
het verbeteren van praktische situaties waarbij theorie uiteraard een
middel kan zijn, maar niet noodzakelijk het enige middel is (Toulmin,
2001).
Kennen en handelen zijn in de medische discipline met elkaar verbonden:

onderzoekers zijn arts. Sommigen specialismen richten zich bij uitstek op
de ontwikkeling van vaardigheden (denk bijvoorbeeld aan chirurgie). Ook
onderzoekers leren kijken, leren voelen, leren luisteren en ruiken om
ziekten te kunnen diagnosticeren. Deze lichamelijke vaardigheden – deze
tacit knowlege – zijn ook in het wetenschappelijk onderzoek onontbeer-
lijk; onderzoek waar geen diagnostische vaardigheden bij aan te pas
komen, is ondenkbaar. De disciplinaire standaarden brengen de onderzoe-
ker in aanraking met de praktijk: in het kader van hun opleiding moeten
onderzoekers een groot aantal cases gezien hebben. Hun hele loopbaan
lang blijven onderzoekers verantwoordelijkheid dragen voor patiënten. Er
is dus een structuur geschapen waarin de zoektocht naar expliciete kennis
voortdurend door tacit knowledge wordt gevoed.
De kennis die wordt ontwikkeld, wordt ook door de onderzoekers in

concrete situaties toegepast. Zo ontstaat een natuurlijke check op de
juistheid van inzichten in een specifieke context. Zo wordt voorkomen dat
theoretische waarheden een eigen leven gaan leiden. Zo ontstaan nieuwe
vragen die het onderzoeken waard zijn. De sturende kracht achter de
wetenschappelijke analyse is de vraag wat heilzaam is voor patiënten – een
normatieve vraag die heel natuurlijk in de wetenschappelijke analyse
wordt meegenomen.
Niet in alle hoeken van de medische sector wordt het object van onderzoek
gevormd door patiënten. Er zijn ook wetenschappers die zich richten op
cellen, of op bacteriën. Niet alle medische onderzoekers gaan met
patiënten om, maar er geldt wel dat iedereen intensief betrokken is bij zijn
of haar object van onderzoek.
Binnen een klinische onderzoekspraktijk kunnen allerlei verschillende

onderzoeksmethoden gebruikt worden: grootschalig en kleinschalig,
kwalitatief en kwantitatief, experimenteel en beschrijvend. Doordat de rol
van de onderzoeker de rol van de professional overlapt, wordt een
praktijkgerichte cultuur gecreëerd. Er worden praktijkgerichte vragen
gesteld. Data worden vanuit praktische wijsheden geïnterpreteerd.
Waarheden worden aangevuld door wijsheden. Kennis gaat gepaard met
vaardigheden.
5.11 Naar een nieuwe onderwijskunde?

De kloof tussen onderzoek en praktijk, die onder de noemer van evidence
based onderzoek wordt gecontinueerd, roept de vraag op of we toe zijn
aan een nieuwe onderwijswetenschap met een klinische opzet. Wanneer
onderwijsonderzoekers concrete verantwoordelijkheid in de onderwijs-
praktijk dragen, ontwikkelen zij een gevoeligheid die kan helpen om
fragmenten van kennis uit onderzoek beter tot een zinvol geheel samen te
smeden. Ze leren zien welke factoren in de praktijk relevant zijn en welke
niet. Theoretische inzichten worden voortdurend aan lokale praktische
omstandigheden getoetst, wat inzichten nuanceert en verdiept. Zo kan
worden voorkomen dat theorie een eigen leven gaat leiden. Door naast
hun werk als onderzoeker ook praktisch met onderwijs bezig te zijn,
ontwikkelen onderzoekers vaardigheden die hen in staat stellen om te
weten waar ze over praten als ze anderen iets aanraden. Daarnaast wordt
zo voorkomen dat onderwijswetenschap een tamelijk leeg begrippenspel
wordt. Onderzoekers hoeven zich dan niet langer te beperken tot het
ontwikkelen van theorie over onderwijs, maar kunnen zij mede dankzij
hun onderzoek bestaande praktijken verbeteren en inspirerende voor-
beeldpraktijken creëren.
Het is bemoedigend dat er momenteel allerlei ontwikkelingen plaats-

vinden, die zich bewegen in de richting van een klinische opzet. Allereerst
is er een groeiend aantal onderzoekers dat samenwerking met leraren
bepleit (Ten Dan, Volman & Wardekker, 2005; Vandenberghe 2005). Hoe
ver deze samenwerking gaat, kan variëren; soms betekent het niet meer
dan dat leraren onderzoekers toegang geven tot het veld, in andere
gevallen betekent het dat de onderzoeker en de leraar samen publiceren in
wetenschappelijke tijdschriften. In deze projecten wordt nieuwe ervaring
opgedaan. In ieder geval is het belangrijk dat de uitwisseling tussen
onderzoek en praktijk tweezijdig is: onderzoekers moeten zich realiseren
dat zij iets van practici te leren hebben (Jolles, 2006). Daarnaast zijn er
initiatieven waarin de rol van de onderzoeker inderdaad overlapt met die
van de leraar. Onder onderzoekers is er veel belangstelling voor design
based research (Kelly, 2003), een vorm van onderzoek waarin de onderzoe-
ker ook leraar is.
Probleem is wel dat veel onderzoekers vaak geen kennis van een schoolvak
hebben en geen ervaring als leraar waardoor er van de overlappende rol
niet altijd even veel terecht komt. De overlappende rol van de onderzoeker
met de leraar wordt ook gestimuleerd doordat er recent in den lande
allerlei initiatieven genomen zijn om de wetenschappelijke studie
pedagogiek of onderwijskunde te combineren met een opleiding tot
leraar. Last but not least zijn er de initiatieven om (ervaren) leraren op te
leiden als onderwijsonderzoeker, waarbij het de bedoeling is dat zij (als
onderzoeker) carrière maken, maar tegelijkertijd in de onderwijspraktijk
actief blijven. Te denken valt aan de academische school, maar ook aan het
initiatief van het Nederlands Instituut voor Masters in Educatie om in
samenwerking met enkele universiteiten aan ervaren leraren een
academische master in education aan te bieden, die de werkgever betaalt
en waarvoor leraren gedeeltelijk uitgeroosterd worden. Her en der worden
vergelijkbare initiatieven genomen waarin leraren hun werk voor de klas
combineren met een taak als onderzoeker.
Een overlappende rol tussen onderzoeker en leraar is binnen een klinische

opzet niet het privilege van onderzoekers die zich met kleinschalig
onderzoek (of design based research) bezighouden. Voor grootschalig
onderzoek is tacit knowledge evenzeer noodzakelijk als voor kleinschalig.
Terwijl klinische onderzoekers altijd oog blijven houden voor wat het
individuele geval anders maakt, wordt de hoop op algemene waarheden
niet opgegeven. Inzichten ontstaan in een klinische discipline niet alleen
van bovenop - van het algemene naar het bijzondere - maar ook van
onderop - van het bijzondere naar het algemene (Toulmin, 2001).
Een belangrijke reden voor de kloof tussen onderzoek en praktijk is dat de

disciplinaire standaarden simpelweg niet van onderzoekers vragen dat
hun werk relevant is voor de praktijk. Wanneer onderzoekers voldoende
publiceren in internationale tijdschriften, hebben zij hun werk gedaan.
Niettemin maken veel onderzoekers zich toch zorgen over de kloof tussen
onderzoek en praktijk. De initiatieven hierboven zouden een voorzichtige
voorbode kunnen zijn van het ontstaan van een nieuwe onderwijsweten-
schap. We zijn er echter nog lang niet. In het kader van bewezen beleid is
steun voor deze ontwikkeling vanuit het beleid hard nodig.
5.12 Bewezen beleid

De overheid is verantwoordelijk voor de kwaliteit van onderwijs. Dit maakt
een top-down benadering onvermijdelijk. Dat creëert echter wel een
dilemma, want kwalitatief hoogwaardig onderwijs is niet van bovenaf te
organiseren. Door de kloof tussen onderzoek en praktijk komt het
regelmatig voor dat leraren professionele kennis aangeboden krijgen die
niet beantwoordt aan hun vragen. Hun professionele taal/instrumen-
tarium, waar ze in problematische situaties een beroep op kunnen doen, is
beperkt, wat het beroep van leraar tot een kwetsbaar beroep maakt
(Kechtermans, 1996). In zo’n situatie is de verleiding groot om toch van
bovenaf in te gaan grijpen, terwijl er tegelijkertijd aarzeling is omdat er al
zoveel is misgelopen.
Een klinische opzet zou ook daarin de overheid de hand kunnen reiken.
Een transformatie naar klinische disciplinaire standaarden zou immers
een omkering van de beroepskolom betekenen. Momenteel verkeren we
in een situatie waarin de praktische ervaring met leerlingen afneemt
naarmate je hoger in de kolom komt (Lanier & Little, 1986; Zeichner, 1999).
Wanneer de overheid zich door het veld laat adviseren, loopt de overheid
onder de huidige omstandigheden grote kans dat de mensen op de
werkvloer – die onderaan in de hiërarchie staan – niet aan het woord
komen. Als onderwijskunde een klinische wetenschap wordt, zou dat
betekenen er tot op het hoogste niveau met leerlingen wordt gewerkt.
Onderwijsvernieuwingen worden dan binnen het werkveld zelf bedacht en
onderzocht. De overheid hoeft dan pas aan het einde van het traject op te
treden, als de vernieuwing volwassen is geworden en de ervaringen in het
veld een wijziging van beleid rechtvaardigen. Dat zou pas echt bewezen
beleid zijn!
Literatuur
Berliner, D.C. (2001). Learning about and learning from experts. International journal of
educational research 35(5) 463-482.
Berliner, D.C. (2002). Educational research: the hardest science of all. Educational Researcher
31(8), 18-20.
Boekaerts, M., Pintrich, P.R., & Zeicher, M. (Eds.) Handbook of self-regulation. San Diego:
Academic Press.
Bosker, R.J. (2008). Naar meer evidence-based onderwijs. Pedagogische Studiën 85, 49-51.
Bronowski, J. (1978). The origins of knowledge and imagination. New Haven and London:
Yale University Press.
Bulterman-Bos, J. A. (2004). Teaching Diverse Learners: A Practice Based Perspective.
Amsterdam: academisch proefschrift Vrije Universiteit.
Bulterman-Bos, J.A. (2007). “Bij de groep horen”: hoe de imitatietendens het leraren moeilijk
kan maken om adaptief onderwijs vorm te geven. Pedagogische Studiën, 84(3), 159-175.
Bulterman-Bos, J.A. (2008a). Will a clinical approach make educational research more
relevant for practice? Educational Researcher, 37(7) 412-420.
Bulterman-Bos, J.A. (2008b). Clinical study: A pursuit of responsibility as the basis of
Education Research. Educational Researcher, 37(7) 439-445.
Dam, G. ten, Volman, M. & Wardekker, W.L. (2005). Samen werken aan innovatieve
leerpraktijken: inleiding op het themanummer. Pedagogische Studiën 82(4), 259-261.
Dar, Y. & N. Resh (1994). Separating and mixing students for learning: Concepts and research.
Pedagogisch Tijdschrift 19(2), 109-126.
Dar, Y. & Resh, N. (1985). Homogeneity and heterogeneity in education: The psychological
price argument. Psychology and counselling in education (Yearbook pp. 39-62) (Hebrew).
Dar, Y. & Resh, N. (1986). Classroom intellectual composition and academic achievement.
American Educational Research Journal, 23(3), 357-374.
Dusek, J.B., Hall, V.C. & Meyer, W.J. (Eds.) (1985). Teacher expectancies. Hillsdale, NJ:
Lawrence Erlbaum.
Eisner, E.W. (1992). Objectivity in educational research. Curriculum Inquiry, 22(1), 9-15.
Elk, R. van, Steeg, M. van der, Webbink, D. (2009). The effect of early tracking on participation
in higher education. CPB document 182. Den Haag: CPB.
Feuer, M.J., Towne, L. Shavelson, R.J. (2002). Scientific culture and educational research.
Educational Researcher 31(8), 4-14.
Gelwick, R. (1977). The way of discovery. An introduction to the thought of Michael Polanyi. New
York: Oxford University Press.
Jolles, J. (2006). Waarom de tijd rijp is voor het slaan van bruggen tussen hersen- en
cognitieve wetenschap en de onderwijspraktijk. Over kennis en inzichten over ‘Brein en
Leren’ die relevant kunnen zijn voor onderwijs-innovatie. Webcomment 28 mei
2006Kelchtermans, G. (1996). Teacher vulnerability: Understanding its moral and political
roots, Cambridge Journal of Education 26 (3) (1996), pp. 307–323.
Kelly, A.E. (2003). The role of design in educational research. Theme issue. Educational
Researcher 32(1), 3-37.
Lagemann, E. Condliffe (2000). An Elusive Science: The Troubling History of Education
Research. Chicago: University of Chicago Press, 2000.
Lagemann, E. C. & Shulman, L.S. (Eds.) (1999). Issues in educational research: Problems and
possibilities. San Francisco: Jossey-Bass.
Lampert, M. (1985). How do teachers manage to teach? Perspectives on problems in
practice. Harvard Educational Review 55 (2), 178-194.
Lanier, J. & Little, J.W. (1986). Research on teacher education. In M. Wittrock (Ed.), Handbook
of research on teaching (3th ed, 527-568. New York: Macmillan.
Oakes, J. (1985). Keeping track: How schools structure inequality. New Haven, CT: Yale
University Press.
Onderwijsraad (2006). Naar meer evidence based onderwijs. Den Haag: Onderwijsraad.
Polanyi, M. (1958). Personal Knowledge: Towards a post-critical philosophy. Chicago:
University of Chicago Press.
Polanyi, M. (1967). The tacit dimension. London: Routledge & Kegan Paul.
Schön, D. A. (1983). The reflective practitioner. How professionals think in action. New York: Basic
Books.
Slavin, R.E. (2002). Evidence-based education policies: transforming educational practice
and research. Educational Researcher, 31(7), 15-21.
Sligte, H., Bulterman-Bos, J., Huizinga, M. (2009). Maatwerk voor latente talenten?
Uitblinken op alle niveaus. Amsterdam: SCO-Kohnstamminstituut.
St. Clair, R. (2005). Similarities and superunknowns: An essay on the challenges of
educational research. Havard Educational Review, 75 (4), 435-453.
Toulmin, S. (2001). Return to reason. Cambridge, MA: Harvard University Press.
Vandenberghe, R. (2005). Samenwerking onderzoek en praktijk: mogelijkheden en grenzen
(Cooperation between research and practice: possibilities and limitations). Pedagogische
Studien, 82(4).
Vries, A.M. de (1992). Hoe breder hoe beter? De effecten van heterogeen groeperen in het
voortgezet onderwijs in Nederland. Dissertatie, Groningen: RION.
Werfhorst, H.G. van der, & Mijs, J.J. (2007). Onderwijsdifferentiatie en ongelijkheid.
Nederland in vergelijkend perspectief. Rapport in opdracht van het Ministerie van
Onderwijs, Cultuur en Wetenschappen. Amsterdam: AIAS, ASSR.
Wineburg, S.S. (1987). The self-fulfillment of the self-fulfilling prophecy. Educational
Researcher, (6), December 1987, 28-37.
Zeichner, K. (1999). The new scholarship in teacher education. Educational Researcher, 28(9),
4-15.
06
Onderwijs op de
ladder: maatwerk
in het onderzoek
naar effectiviteit
Tom van Yperen
Bijzonder Hoogleraar Onderzoek en ontwikkeling effectieve jeugdzorg,
UU
&
Bas Bijl
Programmaleider Onderzoek, PI Research Amsterdam
6.1 Inleiding
Werken aan de kwaliteit van het onderwijs en de jeugdzorg is een
voorwaarde voor een goed functionerend stelsel. Bestaande onderwijsme-
thoden, psychosociale interventies, of beleidsmaatregelen moeten op hun
waarde worden getoetst. Onderzoek naar de effecten van die aanpakken
vormt een essentieel onderdeel van de ontwikkeling van het aanbod. Leidt
de ene leesmethode tot betere vaardigheden van leerlingen dan de
andere? Zorgt een training tegen faalangst van leerlingen dat ze beter gaan
presteren bij toetsen en examens? Wat is een goede methode voor
klassenmanagement door leerkrachten, dat taakgericht gedrag bevordert
en lesverstoringen doet afnemen?
Er is veel discussie over de vraag welk type onderzoek het meest aangewe-
zen is om dit soort vragen van een antwoord te voorzien. Er bestaan in de
literatuur verschillende classificaties om de kwaliteit van effectonderzoek,
en daarmee de ‘hardheid’ van bewijs voor de effectiviteit van een interven-
tie, te bepalen. Zo hebben West et al. (2002) meer dan 100 systemen voor
het typeren van de kwaliteit van studies bestudeerd. In veel van deze
systemen staat het experimentele onderzoek bovenaan, als de ultieme of
zelfs enige vorm waarmee de effectvraag afdoende is te beantwoorden.
Voorstanders van het experimentele onderzoek noemen dit type design
vaak de ‘gouden standaard’ van effectstudies; anderen geven aan dat deze
kwalificatie principieel onjuist of onhaalbaar is voor de praktijk.
In deze bijdrage stellen we deze kwestie aan de orde. Eerst gaan we in op

de vraag wat experimenteel onderzoek inhoudt, wat de voordelen ervan
zijn en welke bezwaren ertegen zijn te opperen. Daarna schetsen we een
benadering waarin verschillende onderzoeksopzetten een eigenstandige
functie hebben. Het experimenteel onderzoek neemt daar een plek in,
maar geldt niet als enige design dat de gouden standaard bepaalt.
6.2 Het experimenteel onderzoek: kenmerken en merites
6.2.1 Kenmerken van het experimenteel design

We bespreken hier de experimentele opzet in een notendop. Voor een
uitgebreide verhandeling over dit type onderzoeksdesign verwijzen we
naar Shadish, Cook en Campbell (2002). De experimentele onderzoeksop-
zet heeft drie kenmerken. Het eerste kenmerk is dat een nieuwe methode,
behandeling of een programma wordt getest door een onderscheid te
maken in een experimentele conditie, waarbij men bijvoorbeeld een
nieuwe faalangsttraining aanbiedt, en een controleconditie, die de
gebruikelijke aanpak krijgt (treatment as usual), een nepaanpak (bijvoor-
beeld een uur een vriendelijk gesprek in plaats van een faalangsttraining)
of helemaal niets. Het tweede kenmerk is dat de toewijzing van personen
aan de groepen door toeval (at random) wordt gedaan, bijvoorbeeld door
loting of op volgorde van binnenkomst. Deze opzet heet voluit de
Randomized Controlled Trial (RCT). Hierdoor hoopt men kenmerken van
subjecten (zoals leeftijd, geslacht, motivatie voor een bepaalde aanpak, de
kans dat iemand heeft op spontaan herstel) willekeurig over de twee
condities te verdelen. Het enige waarin de groepen verschillen is – als het
goed is – het al dan niet ondergaan van de experimentele aanpak. Hanteert
men verschillende groepen, maar worden de subjecten niet via toeval
ingedeeld, dan spreekt men van een quasi-experiment. Het derde kenmerk
houdt in dat men via voor- en nameting de mate van toename van
vaardigheden of afname van problematiek in de verschillende groepen
meet. Via statistische toetsing gaan de onderzoekers na of de geconsta-
teerde veranderingen in de experimentele groep verschilt van die in de
controlegroep. Is er een significant verschil, dan is dit volgens deze opzet
met een grote mate van zekerheid toe te schrijven aan het al dan niet
ondergaan van de experimentele aanpak. Dit heet de causale bewijskracht
van het design: het gevonden verschil wordt veroorzaakt door de experi-
mentele conditie.
In de praktijk is de at random toewijzing op verschillende manieren te

realiseren. Twee voorbeelden:
Elk kind dat voor een dyslexiebehandeling wordt aangemeld, krijgt een
nummer. Aan de hand van random tabellen bepaalt een coördinator welke
behandeling de leerlingen krijgen: de traditionele aanpak of een nieuwe
aanpak die voor een deel werkt met een computertraining. Bij beide
groepen meet men de lees- en spellingsvaardigheden bij de start van de
behandeling, na de behandeling en nog eens een jaar later.
Er is een nieuwe faalangsttraining ontwikkeld. Er is op een bepaald
moment echter nog maar beperkte capaciteit om veel scholen in de
nieuwe aanpak wegwijs te maken. Men maakt van de nood een deugd:
scholen die mee willen doen aan een tweejarig onderzoek naar de
kwaliteit van de methode worden willekeurig ingedeeld in twee groepen.
In de eerste groep scholen wordt de nieuwe training ingevoerd. De andere
groep gaat nog een jaartje door op de oude voet; zij zijn volgend jaar aan
de beurt. In beide groepen volgt men de ontwikkeling van de angstreduc-
tie tijdens en na afloop van de training nauwkeurig.
De experimentele opzet geldt over het algemeen als een krachtig model
waarmee effecten van nieuwe aanpakken te toetsen zijn. De kracht schuilt
vooral in het feit dat allerlei alternatieve verklaringen voor het effect
ermee zijn uit te sluiten (zie bijvoorbeeld Shadish e.a., 2002)
6.2.2 De aanpak onder kritiek
Ondanks de kracht van het model staat, zoals gezegd, de toepassing van
dit design vaak ter discussie. Cook (2003) vatte deze discussie voor het
onderwijs in een artikel samen en noemde vijf typen argumenten om de
experimentele opzet niet toe te willen passen.
Filosofische argumenten
Men bekritiseert bijvoorbeeld onderzoekers die met de experimentele
opzetten de pretentie hebben dat effecten ermee op een objectieve
(unbiased) manier zijn te meten. Volgens deze kritiek bestaat objectief
meten niet; er zijn bijvoorbeeld altijd informanten in het spel die op een
bepaalde manier het tegen de veranderingen bij de jeugdigen of leerkrach-
ten aankijken. De zekerheid die wetenschappers met het design claimen
zou volgens deze opvatting dan ook een schijnzekerheid zijn. Daar komt
bij dat het design vooral eenvoudige causale relaties test, terwijl in de
dagelijkse werkelijkheid de causaliteit door een complex van relaties wordt
bepaald. Bestudering van de complexe interacties die zich afspelen wordt
door dit design sterk beperkt, terwijl die complexe relaties voor een juist
begrip van de werkelijkheid essentieel zijn. Ook komt men ethische
argumenten tegen. Bijvoorbeeld, men maakt bezwaar tegen het feit dat
aan jeugdigen, ouders of leerkrachten bewust een potentieel krachtige, op
zijn minst veelbelovende aanpak wordt onthouden (zie ook Shadish e.a.,
2002).
Praktische argumenten
De uitvoering van de RCT blijkt in de praktijk vaak moeilijk te realiseren.
Zo komt het voor dat ouders of leerlingen van de nieuwe aanpak horen en
daarom niet (meer) willen meedoen in een controlegroep. Of een
secretaris die verantwoordelijk is voor de random toewijzing houdt zich
niet aan de spelregels, en blijkt later ook afstand tussen woonplaats van
een leerling en behandellocatie meegewogen te hebben. Ook kan achteraf
de randomisatie niet goed blijken te werken, waardoor de experimentele
groep bij aanvang faalangstiger bleek te zijn dan de controlegroep etc. Een
RCT vereist een nauwkeurige en zorgvuldige voorbereiding, hetgeen een
relatief groot beslag legt op tijd en financiën.
Argumenten over de praktische waarde

Behandelingen die in RCT’s worden geëvalueerd kunnen van de praktijk
verschillen (zie ook Shadish, Matt, Navarro & Phillips, 2000). Zo worden
RCT’s vaak door gemotiveerde onderzoekers trainers uitgevoerd, die
bovenop de juiste uitvoering van de interventie zitten. De uitvoerder van
de interventie is vaak goed getraind en wordt goed begeleid. De doelgroep
is bovendien vaak gedegen geselecteerd. In de dagelijkse praktijk (treat-
ment as usual) gebeurt dit allemaal veel minder gedegen. De RCT zou
daarom een te gunstig beeld kunnen geven van de werkelijkheid. Ook kan
ze een ongunstiger beeld geven omdat onderzoekers bijvoorbeeld pas van
belangrijke verschillen praten als ze statistisch significant zijn. Hierdoor
kunnen minder robuuste effecten buiten beeld blijven.
Argumenten over het gebruik van de uitkomsten

Hierbij redeneert men dat de resultaten vaak alleen maar interessant zijn
voor onderzoekers en beleidsmakers en weinig toevoegt aan de besluitvor-
ming in de praktijk. Of men voor training A of B kiest wordt in de praktijk
vaak door andere argumenten bepaald dan door de vraag of een RCT
aangeeft dat een aanpak wel of niet superieur is boven een andere aanpak.
Argumenten die aangeven dat er betere alternatieven zijn.
Hierbij verwijst men bijvoorbeeld naar intensieve kwalitatieve studies,
goede quasi-experimenten en het bouwen van causale modellen in
longitudinale onderzoeken.
Voor deze argumenten is veel te zeggen. Tegen deze argumenten ook.

Onze ervaring is dat het niet productief is om hier eindeloos debat over te
voeren. Al te vaak stuit men hierbij op een gat tussen praktijk en weten-
schap, of tussen onderzoekers uit verschillende scholen. De vraag is hoe
dit gat is te overbruggen, anders dan via een standpuntendiscussie. Onze
stelling is dat de effectiviteitsvraag te eenzijdig wordt gekoppeld aan
experimenteel onderzoek als middel om het antwoord te vinden. De
onderwijspraktijk ervaart in dat kader het al dan niet werken aan effectivi-
teit als het al dan niet uitvoeren van dat type onderzoek. Volgens ons is het
van belang dat de praktijk de kans krijgt om naar dat onderzoek toe te
groeien. In de jeugdzorg is hiervoor de laatste jaren een benadering
ontwikkeld die veel in beweging heeft gebracht.
6.3 De effectladder: onderzoek matchen aan ontwikkelings

stadium interventie
6.3.1 Ontwikkeling van interventies

Veerman en Van Yperen (2007) stellen dat de effectiviteit van een interven-
tie geen alles-of-niets-kwestie is. Een interventie ontwikkelt zich door-
gaans in stadia, waarin deze groeit van een impliciete gedachte of
handeling naar een theoretisch en empirisch onderbouwde werkwijze.
Veerman en Van Yperen (2007) stellen in dit verband een zogeheten
‘effectladder’ voor (zie ook figuur 1). Deze ladder schetst de sporten
waarlangs men omhoog kan klimmen om een interventie van impliciete
kennis naar een op werkzaamheid getoetst niveau kan brengen. Bij het
onderste niveau is er sprake van een impliciete interventie: professionals
passen het toe zonder dat omschreven is voor wie de interventie is
bedoeld, welke doelen ze dient, wat de werkwijze hoort te zijn en waarom
dit een goede aanpak zou zijn. Op niveau 1 is er sprake van een goed
omschreven interventie: de doelgroep is helder, de doelen zijn geëxplici-
teerd en de aanpak staat duidelijk op papier. Interventies op niveau 2 zijn
goed omschreven en hebben tevens een geloofwaardige theoretische
onderbouwing. In deze theorie is aannemelijk gemaakt waarom deze
aanpak bij deze doelgroep zou kunnen leiden tot de gestelde doelen. Op
niveau 3 is er sprake van enig empirisch materiaal waaruit blijkt dat de
doelen van de interventie voldoende worden gehaald, dat cliënten
tevreden zijn, of dat problemen (blijkens voor- en nametingen) voldoende
afnemen tijdens de toepassing van de interventie. Op niveau 4 is er ook
empirisch materiaal dat erop wijst dat de interventie verantwoordelijk is
voor de geobserveerde resultaten, i.e. er is causale bewijskracht voor de
werkzaamheid van de interventie.
Figuur 1 Effectladder, soorten onderzoek en erkenning van interventies
Niveau Effectladder* Soorten onderzoek* Erkenningscommissie

Interventies**
- Kosteneffectiviteitsonderzoek
4. Is de interventie - Experimenteel onderzoek (RCT) Erkenning bewezen effectief of
werkzaam? - Quasi-experimenteel onderzoek waarschijnlijk effectief, afhankelijk van
- Case-studies (N=1-onderzoek) Kwaliteit onderzoek (bewijskracht
design, in praktijk uitgevoerd,
- Veranderingstheoretisch onderzoek follow-up)
- Normgerelateerd veranderings Aard van het effect
onderzoek (‘Benchmarkstudies’) Grootte van het effect
Aantal studies
- Veranderingsonderzoek zonder
3. Is de interventie benchmark
doeltreffend? - Doelrealisatie-onderzoek
- Tevredenheidsonderzoek
2. Is de interventie in theorie - Meta-analyses Erkenning theoretisch goed
effectief? - Literatuurstudies onderbouwd
- Studies naar impliciete kennis
1. Is de interventie goed - Descriptief onderzoek
beschreven? - Observatie-onderzoek
- Documentanalyse
- Interviews
0. Is de interventie impliciet
(black box)?
Voor een uitgebreide toelichting zie *Van Yperen & Veerman, 2008; **Van Yperen & Van
Bommel, 2009
6.3.2 Matching ontwikkelingsstadium en onderzoeksopzet

Veerman en Van Yperen hebben bij elk niveau verschillende soorten
onderzoek aangegeven die passen bij het ontwikkelingsstadium van de
interventie. Deze soorten onderzoek kenmerken zich door de mate van
bewijskracht die ze leveren voor de effectiviteit van een interventie: van
zeer laag (onderzoek dat past bij niveau 1) tot zeer hoog (onderzoek dat
uitsluitsel geeft over de werkzaamheid van een interventie – niveau 4).
Naast de soorten onderzoek die in figuur 1 aan de vier niveaus van de
effectladder zijn gekoppeld, is ‘kosteneffectiviteitsonderzoek’ als vijfde
soort te onderscheiden. Dit type heeft niet alleen tot doel de werkzaam-
heid van de interventie aan te tonen, maar ook de meerwaarde (t.o.v.
alternatieven) in economische zin (Rutten-Van Mölken, Van Busschbach &
Rutten, 2000).
Kern van dit model is nu dat niet het onderzoek op de hoogste sport van de
effectladder de ‘gouden standaard’ vertegenwoordigt, maar het onderzoek
dat het beste past bij het ontwikkelingsstadium van een interventie. Zo
heeft het geen enkele zin om al een RCT uit te voeren als de theorie nog
onvoldoende specificeert wat de werkzame factoren zijn en als er nog geen
voorlopig onderzoeksmateriaal op tafel ligt dat laat zien dat tijdens de
uitvoering van de interventie de problemen van de cliënten voldoende
afnemen. Verstandiger is het in dat geval eerst verder te werken aan de
theorie en de monitoring van resultaten. Daarvoor gebruikt men andere,
meer passende onderzoeksmethoden. Elk stadium en daarbij horend
onderzoek draagt zo bij aan het beeld van de effectiviteit van de
interventie.
6.3.3 Toepassingen van de effectladder

Dit model is in praktijkinstellingen uitgeprobeerd. De ervaring leert dat
veel praktijkinstellingen dit ervaren als een begaanbare weg. Het zorgt er
voor dat er een veel kritischere houding gaat ontstaan ten aanzien van het
bestaande aanbod, dat men oog krijgt voor de theoretische onderbouwing
en dat er een cultuur gaat ontstaan waarin het meten van effecten een
belangrijke plek krijgt (zie bijvoorbeeld Veerman & Ooms, 2008; Van der
Steege, 2009; zie ook www.sejn.nl). Hiermee ontstaat een goede voedings-
bodem om – waar relevant – ook met experimenteel onderzoek aan de slag
te gaan. De werkprincipes van de effectladder en voorbeelden van het
werken met dit concept zijn neergelegd in een handboek (Van Yperen &
Veerman, 2008).
De verschillende soorten onderzoek zijn door het Nederlands

Jeugdinstituut en het RIVM vertaald naar verschillende niveaus waarop de
zogeheten Erkenningscommissie Interventies keurmerken uitdeelt voor
interventies in de jeugdzorg, het lokale jeugdbeleid en de gezondheidsbe-
vordering. Algemene stelregel daarbij is: hoe hoger een onderzoek op de
effectladder staat, hoe sterker de bewijskracht. Speciaal aandachtspunt bij
de kwaliteit is de externe validiteit van het onderzoek: is de studie in de
praktijk uitgevoerd en zijn daarmee de uitkomsten ook geldig voor de
praktijk? Tevens wordt gekeken naar de beschikbaarheid van follow-up
gegevens: laten vervolgstudies zien of de bereikte effecten na de afsluiting
van de interventie beklijven? Of een interventie effectief is te noemen,
hangt voorts af van de aard van het effect (is het effect zoals bedoeld?, zijn
er ongunstige neveneffecten?), de grootte van het effect (levert het
voldoende winst op ten opzichte van de oude situatie?) en het aantal
studies (is het effect gerepliceerd? Hoe vaak?). Sommige niveaus van de
effectladder hebben geen equivalent in de erkenning van interventies.
Studies op niveau 1 (beschrijvend onderzoek) en 3 (met name onderzoek
met een zwakke bewijskracht, zoals onderzoek naar cliënttevredenheid,
doelrealisatie en veranderingsonderzoek zonder benchmark) worden
gezien als belangrijke tussenstappen om tot een erkenning te komen. De
kosteneffectiviteit is nog geen onderwerp op de effectladder; de erken-
ningscommissie geeft er ook nog geen keurmerk voor af. De verwachting
is dat dit in de toekomst wel een belangrijke rol gaat spelen.
6.4 Met onderzoeksopzetten onderweg

Zoals gezegd, de kunst is onderzoeksopzetten te hanteren die goed passen
bij het ontwikkelingsstadium van de interventie. Het voer te ver om de
verschillende mogelijkheden hier uitgebreid te bespreken. Voor een
uitgebreide verhandeling verwijzen we naar Van Yperen, Bijl en Veerman
(2008 a, b) en Bijl, Van Yperen en Veerman (2008). We lichten er hier de
belangrijkste onderwerpen uit om de principes van het werken met de
effectladder te verhelderen.
6.4.1 De eerste twee niveaus: een noodzakelijke stap

Het goed beschrijven en theoretisch onderbouwen van interventies is een
voorwaarde voor het uitvoeren van verantwoord effectonderzoek. Een
beschrijving is nodig om helder te maken voor wie en waarvoor de
interventie bedoeld is. Dit bepaalt de context waarbinnen effectgegevens
betekenis krijgen. Beschrijvend en observerend onderzoek dat helder
maakt wat uitvoerders van een interventie in de praktijk doen, bij wie en
waarom, helpt de kenmerken van een interventie bloot te leggen. Zo
kunnen ze bijvoorbeeld aangeven bij wie een interventie vooral lijkt te
werken en bij wie niet. Het is zinvol om deze doelgroepafbakening zo
vroeg mogelijk te maken - en niet pas bij de afronding van een gecontro-
leerd experiment te moeten constateren – om te kunnen beslissen of dit
de doelgroep is die men wil hebben, of dat men aanpassing wil
doorvoeren.
Om de theoretische onderbouwing op orde te krijgen, gebruikt men onder

meer meta-analyses, literatuurstudie en onderzoeken die redenaties van
experts expliciteren (bijvoorbeeld via de zogeheten ‘Delphi-methode’; zie
Garland, Hawlin, Brookman-Frazee & Hurlburt, 2008). Zo leveren deze
studies doorgaans een belangrijke bijdrage om hypothesen te stellen over
de werkzame mechanismen in een interventie: welke activiteiten lijken
over het algemeen effectief om doelen bij een doelgroep te realiseren? De
theoretische verantwoording is te beschouwen als het minimale niveau
van verantwoording, omdat empirisch onderzoek naar de effectiviteit vaak
nog mist. De onderbouwing maakt dan aannemelijk dat de interventie zou
kunnen werken. Dat onderscheidt de professional van de leek: van de leek
mag men accepteren dat intuïtie het handelen stuurt, de professional
moet minstens in theorie kunnen verantwoorden wat hij doet. De
onderbouwing is bovendien een voorwaarde voor goed effectonderzoek.
Met een theorie is immers te specificeren welke uitkomsten te voorspellen
zijn, welke moderatoren en mediatoren er in het spel zijn en welke
concepten in dit licht relevant zijn om te meten.
6.4.2 Een stap verder: eerste empirische indicaties van effecten

De beschrijving en onderbouwing van interventies is niets meer en niets
minder dan studeerkamerwerk. Hoe belangrijk deze basis ook is, met deze
exercitie wordt alleen in woorden aannemelijk gemaakt dat de interventie
in theorie effectief zou kunnen zijn. Op het derde niveau van de effectlad-
der zetten we een stap verder. In de praktijk worden gegevens verzameld
die de eerste aanwijzingen voor effectiviteit opleveren. We spreken
daarom van indicatieve bewijsvoering. Hieronder beschrijven we drie
soorten onderzoek die deze input van practice based evidence (Barkham &
Mellor-Clark, 2003) in maat en getal uitdrukken. De bewijskracht van deze
onderzoekstypen is tamelijk bescheiden, maar niettemin belangwekkend.
Zo geldt over het algemeen dat positieve uitkomsten bij deze studies een
legitimering zijn voor het entameren van intensiever (en ook vaak
duurder) onderzoek, terwijl negatieve uitkomsten een belangrijk signaal
zijn dat de interventie verbetering behoeft, alvorens veeleisender studies
te starten.
Tevredenheidsonderzoek
Tevredenheidsonderzoek is een eenvoudige en vaak aansprekende vorm
van effectonderzoek. Het is een vorm van consumentenevaluatie, waarbij
individuen die een interventie hebben ontvangen na beëindiging van de
verleende dienst (bijv. een lespakket, cursus of begeleiding) worden
gevraagd naar hun tevredenheid over het resultaat. De mogelijke effecten
van een interventie – zo is de onderliggende gedachte – zijn het meest
eenvoudig te meten door de betrokken leerlingen of ouders te vragen of (1)
ze die effecten ervaren en (2) ze tevreden zijn over die effecten.
Tevredenheidsonderzoek is gemakkelijk uitvoerbaar. Tegelijkertijd is het
ook kwetsbaar, omdat vertekeningen in de resultaten kunnen optreden.
Door het retrospectieve karakter, bijvoorbeeld, wordt een beroep op het
geheugen van respondenten gedaan en dat het menselijk geheugen geen
onfeilbaar instrument is, is genoegzaam bekend.
Onderzoek naar doelrealisatie
Een trefzekerder beeld geeft het onderzoek naar doelrealisatie. In zijn
meest simpele vorm wordt nagegaan in welke mate de vooraf, in het
handelings-, begeleidings- of lesplan gestelde doelen zijn bereikt. Het
meten van doelbereiking is een cruciale toetssteen om al dan niet van een
geslaagde interventie te spreken. Naarmate we meer kunnen vaststellen
dat met de interventie de doelen worden bereikt, wordt de aanwijzing
sterker dat de ingreep inderdaad effectief is. Echter, de kwaliteit van de
gegevens is zo goed als de kwaliteit van de gestelde doelen. Het stellen van
goed geformuleerde doelen is niet zo eenvoudig en vergt enige oefening.
Verder betreft het ook hier een evaluatie-achteraf en kent daardoor
methodologisch gezien dezelfde beperkingen als het
tevredenheidsonderzoek.
Veranderingsonderzoek
Hoofdkenmerk van veranderingsonderzoek is dat er aan het begin en aan
het eind van de interventie wordt gemeten met behulp van gestandaardi-
seerde instrumenten (zoals vaardigheidstoetsen of probleemvragenlijs-
ten). Verschillen tussen de scores van begin- en eindmeting, worden
geïnterpreteerd in termen van, bijvoorbeeld, competentietoename of
probleemafname. De geconstateerde veranderingen worden voorzien van
kwalificaties die iets zeggen over de statistische hardheid van de verschil-
len (zoals de significantie van groepsverschillen of de effect size van een
interventie). De beginmeting geeft bovendien zicht op de kenmerken van
de doelgroep. Zo kan men nagaan of de interventie plaatsvond bij de
beoogde doelgroep. Dit alles maakt de practice based evidence weer wat
sterker. Ondanks deze pluspunten willen we ervoor waarschuwen dat men
niet te gretig mag zijn bij het toeschrijven van de verandering aan de
interventie. We kunnen immers niet uitsluiten dat de gemeten verande-
ring is toe te schrijven aan andere factoren.
Sterkere bewijskracht
De bewijsvoering wordt overtuigender als geconstateerde veranderingen
bij leerlingen blijken te stroken met de onderliggende theorie over de
werking van de interventie. Met andere woorden, het theoretisch
voorspelde effect wordt in de praktijk bevestigd door onderzoeksresulta-
ten. Benchmarkstudies en veranderingstheoretisch onderzoek zijn typen
van onderzoek waarin de hypothese wordt getoetst dat de interventie het
verschil maakt.
Benchmarkstudie
Benchmarkstudies liggen in het verlengde van de hiervoor besproken
opzetten. Wat ze eraan toevoegen is dat er een expliciete norm is gesteld
ten aanzien van wat als een goede uitkomst van het onderzoek te beschou-
wen is. De zekerheid over de causale relatie tussen de interventie en de
gemeten verandering wordt niet alleen ontleend aan de richting van het
effect, maar vooral ook aan de hoogte of sterkte ervan. Het theoretisch
voorspelde succes – of zo men wil: de hypothese – wordt hiermee
nauwkeuriger gespecificeerd: “Als deze interventie werkt, dan moet het
resultaat minstens zus of zo zijn.” Een benchmarkstudie is een bijzondere
vorm van doelrealisatieonderzoek: op collectief niveau (de doelgroep)
wordt getoetst of het beoogde resultaat is gehaald gegeven een kwantita-
tieve norm. Deze normen of benchmarks worden vaak ontleend aan
eerdere of elders behaalde successen of aan meta-analyses, op grond
waarvan minstens te verwachten effecten worden bepaald. De valkuilen in
dit soort onderzoek zijn grotendeels dezelfde als die bij het veranderings-
onderzoek aan de orde zijn geweest. Daarbij komt dat het in dit specifieke
geval van belang is de norm realistisch te stellen. Een te lage norm is te
gemakkelijk en werkt niet stimulerend. Een te hoge norm werkt mogelijk
demotiverend en diskwalificerend.
Veranderingstheoretisch onderzoek
Zoals de naam reeds aangeeft worden ook bij dit type onderzoek verande-
ringen gemeten. Maar daarnaast is veranderingstheoretisch onderzoek
erop gericht de effectiviteit van specifieke ingrediënten van de interventie
te exploreren. Een goed uitgewerkte theorie is vereist, waarin precies is
beschreven wat de specifiek werkzame factoren van de interventie zijn,
hoe deze factoren inwerken op de problemen of vaardigheden van
leerlingen en welke uitkomsten als gevolg daarvan te verwachten zijn. De
theorie veronderstelt een causale keten van activiteiten en resultaten
(bijvoorbeeld: hoe meer een leerling het huiswerk van de faalangsttrai-
ning heeft gedaan, hoe beter de resultaten van de training) en het
onderzoek heeft tot doel het bestaan van die keten empirisch te onder-
bouwen. Naarmate men daar beter in slaagt neemt de bewijskracht toe.
Daarbij moeten we ons wel realiseren dat alle waarnemingen worden
gedaan bij één groep, te weten de groep leerlingen die de interventie heeft
ontvangen. Voorts heeft de exploratie hoofdzakelijk een correlationeel
karakter. Hoe krachtig en logisch dwingend de interventietheorie moge
zijn, voor de sterkste bewijsvoering zijn onderzoeksopzetten vereist die
vergelijkingen maken met condities, waarin geen of een alternatieve
interventie wordt geboden.
Meer zekerheid over causale relaties

Hier betreden we het terrein waarop onderzoek wordt gedaan naar de
werkzaamheid van interventies. Onderzoeksopzetten die op dit niveau 4
zijn te plaatsen kunnen meer zekerheid bieden over de effectiviteit van een
interventie: de causale relatie tussen uitgevoerde handelingen en het
waargenomen resultaat.
Quasi-experimenteel onderzoek
Quasi-experimenteel onderzoek is wellicht de meest bekende vorm van
effectonderzoek. Het belangrijkste verschil met de RCT is dat de onder-
zoeksgroepen niet speciaal voor het onderzoek worden samengesteld,
maar op een ‘natuurlijke wijze’ tot stand zijn gekomen (bijv. twee
bestaande schoolklassen of inspectieregio’s). Als we vinden dat de
resultaten van de experimentele groep aantoonbaar beter zijn dan die van
de controlegroep, ligt de conclusie voor de hand dat de interventie
daarvan de oorzaak is. Echter, dan moeten we tevens kunnen aantonen dat
beide groepen niet wezenlijk van elkaar verschillen en dus vergelijkbaar
zijn. In de praktijk is het niet altijd eenvoudig om dit hard te maken.
Daarmee rest bij quasi-experimenteel onderzoek altijd een bepaalde mate
van onzekerheid over de causale relatie tussen interventie en effect.
Experimenteel onderzoek
Experimenteel onderzoek in de vorm van RCT’s geldt als de meest
krachtige onderzoeksopzet als we uitspraken willen doen over de
effectiviteit van interventies. Omdat we in het voorafgaande deze opzet
uitgebreid hebben besproken, volstaan we op deze plaats met een
verwijzing daarnaar.
Herhaalde casus-studies of ‘meervoudig N=1 onderzoek’

Dit geldt als een speciale variant van het experimenteel onderzoek.
Hoofdkenmerk is dat perioden waarin individuen een interventie krijgen,
vergeleken worden met perioden waarbij die interventie achterwege blijft.
Probleemgedrag of vaardigheden van individuele leerlingen worden
zorgvuldig geobserveerd en geregistreerd voorafgaand aan de interventie
(periode A). Vanaf het moment dat de interventie start (B) wordt gekeken
of er een positieve ontwikkeling is. Eventueel wordt na verloop van tijd de
behandeling gestopt (herhaling van periode A), om te zien of er terugval
optreedt. Daarna vervolgt men de behandeling (B) zodat is te zien of de
eerdere verandering van het patroon opnieuw optreedt. Als eenzelfde
soort patroon bij de toepassing van de interventie bij verschillende
leerlingen optreedt, dan geldt dit als een sterke indicator dat de interven-
tie daadwerkelijk verantwoordelijk is voor het resultaat.
6.5 Hoeveel zekerheid heeft men nodig?

Een belangrijke vraag die men bij elke interventie moet beantwoorden is
hoe ver men moet en kan gaan bij het beklimmen van de effectladder. Dit
is niet alleen een technische, maar ook een praktische en ethische
kwestie. In de argumentatie weegt men de bewijskracht van de gegevens
die men in handen heeft af tegen de voordelen en de nadelen van het
entameren van nieuw onderzoek dat hoger op de ladder staat. Als in tien
benchmarkstudies op verschillende locaties is gebleken dat de nieuwe
faalangsttraining veel betere resultaten oplevert dan andere methoden
waarover in de literatuur is gerapporteerd, of als uit drie grootschalige
correlationele studies blijkt dat er een sterke positieve relatie is tussen de
mate waarin leerkrachten zich de principes van goed klassenmanagement
eigen maken – en deze toepassen – en de mate waarin regelovertredend
gedrag in de klas afneemt, wat wil men daar dan aan onderzoek nog aan
toevoegen? Wij als onderzoekers willen graag voor alle zekerheid een studie
met de sterkste bewijskracht uitvoeren. Scholen en beleidsmakers zullen
ondertussen echter moeten beslissen of ze op de uitkomsten daarvan
wachten, of dat ze de leerlingen en leerkrachten al laten profiteren van de
nieuwe aanpakken. Het is te vergelijken met het besluit van een onderzoe-
ker om zich wel of niet aan een RCT te wagen. In dit krachtenveld hanteert
een ieder zijn standaarden: soms staat men al hoog genoeg op de ladder om
de risico’s van een besluit te kunnen overzien.
6.6 Slot
Hoewel het experimenteel onderzoek de sterkste bewijskracht heeft, laat de
effectvraag zich niet alleen met dit type studie beantwoorden. Sterker nog,
het kan voorbarig en bijzonder inefficiënt zijn om experimenteel onderzoek
uit te voeren bij interventies die niet eerst aan studies met een andere opzet
zijn onderworpen. Voor een goede ontwikkeling van een interventie zijn
verschillende typen onderzoek nodig die elk passen bij het stadium waarin
de ontwikkeling verkeert:
1 Beschrijvend onderzoek moet antwoord geven op de vragen als: welk
effect beoogt men, bij welke doelgroep en met welke activiteiten?
2 Literatuurstudie en onderzoek dat de inzichten van experts verheldert,
moet licht werpen op de vraag waarom men denkt dat deze interventie
zou kunnen werken, wat daarbij relevante factoren zijn en welke in dat
licht van belang zijn om in empirisch onderzoek te meten.
3 Onderzoek naar de doeltreffendheid moet de eerste indicaties geven dat
tijdens de uitvoering van de interventies de doelen worden bereikt,
problemen voldoende afnemen en de betrokkenen voldoende tevreden
zijn. Deze indicaties moeten ook aangeven of geavanceerder onderzoek
naar de werkzaamheid de moeite waard is.
4 Voor het beantwoorden van de vraag of de interventie de gevonden
resultaten ‘veroorzaakt’ is onderzoek nodig in de vorm van een RCT, een
herhaalde case study, of andere opzetten die licht werpen op de
causaliteit.
Kern bij dit alles is dat de ‘gouden standaard’ van het effectonderzoek niet
per definitie het laatstgenoemde type studie betreft. ‘Goud’ is het type
effectonderzoek dat past bij het ontwikkelingsstadium waarin een interven-
tie verkeert - passend onderzoek, zo men wil. De hoogste sport op de
effectladder levert de sterkste bewijskracht op, en daarmee veel zekerheids-
graden bij het nemen van de beslissing om wel of niet met een bepaalde
aanpak te werken. Dat neemt echter niet weg dat men bij andere vormen
van onderzoek dan het experimentele design soms al hoog genoeg op de
ladder staat om de risico’s van besluiten te overzien. Hogerop klimmen
kan altijd, maar is uit oogpunt van de benodigde bewijsvoering niet altijd
een absolute ‘must’.
Literatuur
Barkham, M. & Mellor-Clark, J. (2003). Bridging evidence-based practice and practice-based

evidence. Developing a rigorous and relevant knowledge for the psychological therapies.
Clinical Psychology and Psychotherapy, 10, 319-327.
Bijl, B., Yperen, T.A. & Veerman, J.W. (2008). Een kwestie van bewijzen … . In: T.A. van Yperen
& J.W. Veerman (Red.). Zicht op effectiviteit. Handboek voor praktijkgestuurd effectonderzoek in
de jeugdzorg (57-76). Delft: Eburon.
Cook, T.D. (2003). Why have educational evaluators chosen not to do randomized
experiments? Annals of American Academy of Political and Social Science, Vol. 589, p. 114-149.
Garland, A.F., Hawlin, K.M., Brookman-Frazee, L. & Hurlburt, M.S. (2008). Identifying
common elements of evidence-based psychosocial treatments for children’s disruptive
behavior problems. Journal of the American Academy of Child and Adolescent Psychiatry, 47 (5),
505-514.
Rutten-Van Mölken, M.P.M.H., Busschbach, J.J. van & Rutten, F.F.H. (2000). Van kosten tot
effecten. Een handleiding voor evaluatiestudies in de gezondheidszorg. Maarssen: Elsevier
Gezondheidszorg.
Shadish, W.R., Cook, T.D. & Campbell, D.T. (2002). Experimental and quasi-experimental designs
for generalized causal inference. Boston / New York: Houghton Mifflin Co.
Shadish, W.R., Matt, G.E., Navarro, A.M. & Phillips, G. (2000). The effects of psychological
therapies under clinically representative conditions: a meta-analysis. Psychological Bulletin,
126, 512-529.
Steege, M. van der (2009). Jeugdzorgaanbod beschrijven en onderbouwen in de provincie Utrecht.
Eindrapport met opbrengsten en aanbevelingen. Utrecht: Nederlands Jeugdinstituut
Veerman, J.W. & Ooms, H. (2008). Zicht op effectiviteit. Een kijkje in de keuken van zeven
instellingen voor jeugdzorg. Nijmegen: Praktikon.
Veerman, J.W. & Yperen, T.A. van (2007). Degrees of freedom and degrees of certainty. A
developmental model for the establishment of evidence-based youth care. Evaluation and
Program Planning, 30 (2), 212-221.
West S, King V, Carey TS, et al. (2002). Systems to Rate the Strength of Scientific Evidence. Evidence
Report/Technology Assessment No. 47 (Prepared by the Research Triangle Institute-
University of North Carolina Evidence-based Practice Center under Contract No.
290-97-0011). AHRQ Publication No. 02-E016. Rockville, MD: Agency for Healthcare
Research and Quality. April 2002.
Yperen, T.A. & Bommel, M. van (2009). Erkenning (jeugd)interventies: Criteria 2009-2010.
Erkenningscommissie Jeugdinterventies. Utrecht/Bilthoven: Nederlands Jeugdinstituut/RIVM.
Yperen, T.A. van, Bijl, B. & Veerman, J.W. (2008a). Op weg naar veelbelovend. In: T.A. van
Yperen & J.W. Veerman (Red.). Zicht op effectiviteit. Handboek voor praktijkgestuurd
effectonderzoek in de jeugdzorg (35-56). Delft: Eburon.
Yperen, T.A. van, Bijl, B. & Veerman, J.W. (2008b). Opzet van praktijkgestuurd onderzoek. In:
T.A. van Yperen & J.W. Veerman (Red.). Zicht op effectiviteit. Handboek voor praktijkgestuurd
effectonderzoek in de jeugdzorg (209-244). Delft: Eburon.
Yperen, T.A. van & Veerman, J.W. (2008; Red.). Zicht op effectiviteit. Handboek voor praktijkge-
stuurd effectonderzoek in de jeugdzorg. Delft: Eburon.
07
De bijdrage van
internationaal
onderwijs
onderzoek
Dirk van Damme
Hoofd van het Centre for Educational Research
and Innovation (CERI), OESO (Parijs)
7.1 Inleiding
Het is een hardnekkig en door sommigen sterk gekoesterd idee dat
onderwijs zozeer met nationale traditie, cultuur, taal en geschiedenis is
verbonden dat het niet anders dan vanuit een nationaal perspectief
bestudeerd kan worden. In de politieke besluitvorming wordt elke stap
naar supra-nationale beleidsvoering met zeer veel tegenstand geconfron-
teerd. Denk maar aan de eensgezinde weigering van nationale staten om
de Europese Unie een heldere bevoegdheid over onderwijsaangelegenhe-
den te geven. Er is veel voor te zeggen om de Europese integratie ook door
middel van een Europees onderwijsbeleid vorm te geven, zeker wanneer
het sociaaleconomische en arbeidsmarktbeleid steeds meer op Europees
niveau worden aangestuurd. De Europese Commissie heeft via haar
mobiliteitsprogramma’s en andere instrumenten uiteraard de facto wel een
Europees onderwijsbeleid gevoerd, en met de ontwikkeling naar beleids-
instrumenten zoals de ‘open method of coordination’ en de Lissabon-
agenda zijn er ook op het vlak van onderwijs Europese beleidsdoelstellin-
gen legitiem geworden. Maar toch moet men vaststellen dat bij elke
herziening van de Europese verdragen het niet mogelijk blijft om ook
wettelijk te erkennen dat onderwijs niet langer meer exclusief door de
nationale context maar steeds meer door de internationale omgeving
wordt beïnvloed en aangestuurd.
Die politieke, of beter gezegd, psychologische weerstand laat zich ook in

het onderwijsonderzoek voelen. Bij het analyseren van onderwijspraktijk
en -beleid grijpen onderzoekers haast automatisch terug naar factoren en
processen die in de nationale context gelegen zijn. Zelfs in de subdisci-
pline van de onderwijskunde die met de internationale dimensie bezig is,
de comparatieve pedagogiek, bestaat het overgrote deel van de onder-
zoeksliteratuur uit nationale studies die in het beste geval tegenover
elkaar worden vergeleken. Overigens zijn aan de meeste Vlaamse en
Nederlandse universiteiten afzonderlijke leerstoelen of onderwijsonder-
delen in de vergelijkende pedagogiek nagenoeg verdwenen. Maar met de
opkomst en doorbraak van internationaal kwantitatief onderzoek naar
onderwijsindicatoren en, voornamelijk, leerresultaten, komt de interna-
tionale dimensie in het onderwijsonderzoek sterk in de belangstelling te
staan en dat is een goede zaak.
7.2 Onderwijs, onderwijsonderzoek en de internationale

dimensie
Zelfs de meest fervente voorstander van nationale soevereiniteit over
onderwijsbeleid zal inderdaad moeten erkennen dat de internationale
dimensie de laatste decennia steeds belangrijker is geworden. De
ontwikkeling van onderwijssystemen is uiteraard nauw verbonden met
processen van natie- en staatsvorming, maar die ontwikkeling gebeurde
helemaal niet geïsoleerd van de internationale context. Eigenlijk is er van
internationale interactie en zelfs convergentie in de ontwikkeling van
onderwijssystemen al erg vroeg sprake. Staatsvorming was in het
vroegmoderne Europa immers een erg complex gegeven en de consolida-
tie van de nationale staten heeft in Europa slechts in de negentiende en
eerste helft van de twintigste eeuw plaats gegrepen, dit wil zeggen nadat
de onderwijssystemen zich in hun basiskarakteristieken al tot ontplooiing
waren gekomen. Dat impliceert dat er al vroeg een vrij sterke gelijkvormig-
heid was in die basiskenmerken van het onderwijsbestel. Een twintigtal
jaar geleden heb ik dit proces in mijn proefschrift bestudeerd voor wat de
armenzorg en de pedagogische problematisering van de armoede betreft
(Van Damme, 1990). Soortgelijke vaststellingen kunnen worden gedaan
voor veel aspecten van moderne onderwijssystemen.
De eerste min of meer wetenschappelijke belangstelling voor die interna-

tionale dimensie moet in die context van interactie en convergentie
gesitueerd worden. De meeste handboeken situeren het begin van de
comparatieve pedagogiek bij internationale reizigers die ervaringen met
bepaalde pedagogische vraagstukken in andere landen gingen bestude-
ren. Zo wordt Marc-Antoine Jullien, een telg van de Franse Revolutie, als de
grondlegger van de comparatieve pedagogiek genoemd, omdat hij in 1817
een uitgebreid verslag publiceerde van zijn omzwervingen in Europa en de
grondslagen legde van een wetenschappelijke benadering van de vergelij-
king van onderwijssystemen (van Daele, 1993). Hij pleitte daarbij zelfs voor
het verzamelen van statistische gegevens over verschillende aspecten van
onderwijssystemen, zoals financiering van scholen, studentenaantallen
op de verschillende onderwijsniveaus, aantallen leraren, enz. Pas in de
loop van de twintigste eeuw kreeg die wetenschappelijke ambitie min of
meer vorm en dat dankzij de rol en impact van internationale organisaties
die zich met onderwijs gingen bezighouden, zoals het International
Bureau of Education in Genève (1925) en na de Tweede Wereldoorlog vooral
de UNESCO, de World Bank en de OESO. Inmiddels is de comparatieve
pedagogiek uitgegroeid tot een heuse discipline met eigen tijdschriften
zoals Comparative Education en Comparative Education Review, eigen weten-
schappelijke verenigingen en internationale conferenties. Cowen &
Kazamias (2009) hebben in een recent verzamelwerk de stand van zaken in
deze discipline opgemaakt.
De toenemende – maar eerlijk gezegd eigenlijk nog steeds erg bescheiden

en eerder marginale – rol van internationaal georiënteerd onderwijson-
derzoek vindt zijn verklaring in de interactie tussen endogene en exogene
factoren in de hedendaagse ontwikkeling van nationale onderwijssyste-
men. Met endogene factoren doel ik vooral op de toenemende kennisin-
tensiviteit van sturing en beleid van onderwijs. De toenemende complexi-
teit van moderne onderwijssystemen, ook zelf het gevolg van processen
van decentralisering en deregulering waardoor steeds meer actoren
betrokken worden bij sturingsprocessen, vraagt om steeds meer gesofisti-
ceerde informatie. In vergelijking met bijvoorbeeld de gezondheidszorg is
in onderwijs de kennisintensiviteit van sturingsprocessen nog steeds
eerder gering, maar ze is gedurende de voorbije decennia wel sterk
toegenomen. Wetenschappelijke ontwikkelingen maken de methoden
mogelijk om complexe onderwijs- en leerprocessen meetbaar te maken en
beleidsvoerders komen onder steeds grotere druk te staan van stakehol-
ders en de bredere samenleving om beleidskeuzes te legitimeren met
empirische ‘evidence’ (OECD/CERI, 2007).
Voor de exogene factoren moeten we verwijzen naar de steeds sterkere

impact van allerlei fenomenen en processen die met toenemende
globalisering te maken hebben. Globalisering betekent in essentie de
toenemende mobiliteit en interdependentie van economische maar ook
van sociale en culturele grootheden, in het bijzonder van kennis en
informatie. Uiteraard speelt de enorme ontwikkeling van informatie- en
communicatietechnologieën hierbij een bijzonder belangrijke rol.
Globalisering heeft een sterke – veel sterker dan de meeste onderwijspro-
fessionals beseffen – impact op het onderwijsgebeuren zelf (Spring, 2008),
maar maakt ook de informatie en kennis over het onderwijs zelf veel
toegankelijker en mobieler. Het Bologna-proces in het hoger onderwijs is
daarvan een goed voorbeeld, maar er zijn vele andere voorbeelden. De
druk van het globaliseringsproces, voornamelijk via de integratie van
nationale arbeidsmarkten en economische omgevingen, op het hoger
onderwijs deed het besef groeien dat de nationale idiosyncrasieën zoals
nationale diplomastelsels, curricula, kwaliteitszorgsystemen, enz. niet
meer in overeenstemming waren met de toenemende internationale
werkelijkheid. Met een merkwaardig krachtig proces van internationale
convergentie paste het hogeronderwijsbeleid zich in het Bologna-proces
aan die internationale druk aan (Van Damme, 2009). Er zijn vele dergelijke
voorbeelden van convergentie van onderwijsbeleid en -praktijk te vinden.
Heinze & Knill (2008) maken daarbij het onderscheid tussen delta-conver-
gentie, waarbij landen het voorbeeld volgen van een krachtige voorloper
of ‘good practice’, en sigma-convergentie, dat het resultaat is van vele
kleine stappen naar steeds geringere variatie. Feit is dat het onderwijs
helemaal niet ontsnapt aan die internationale druk.
Het interessante is dat die endogene en exogene factoren elkaar hebben

ontmoet en op hun beurt hebben versterkt. De toenemende nood aan
wetenschappelijke kennis groeide sterk in de periode dat de informatie-
en communicatietechnologieën die kennis vanuit andere omgevingen ook
beschikbaar maakte en dat de globalisering een steeds grotere convergen-
tiedruk ging uitoefenen. Tegelijk veranderden ook de sturingsopvattingen
over onderwijs: er kwam steeds meer nadruk te liggen op outputfactoren
dan op input; het hernieuwde inzicht dat onderwijs een investeringsgoed
is deed beleidsvoerders de vraag stellen naar interne en externe efficiëntie
van onderwijsprocessen; het besef groeide dat onderpresterende scholen
een bedreiging vormden voor de effectiviteit van het gehele onderwijsbe-
stel, enz. De vragen die aan de wetenschappelijke onderwijskennis werden
gesteld veranderden, de steeds meer toegankelijke internationale
voorbeelden toonden aan dat die kennis ook kon aangeleverd worden, en
de druk nam toe om zich aan die internationale standaarden te meten
(Crossley & Watson, 2003).
7.3 Internationale onderwijsindicatoren over leerresultaten

De stelling van dit essay is niet zozeer dat globalisering en de convergentie
van onderwijssystemen op zich tot de ontwikkeling van internationaal
onderwijsonderzoek hebben geleid, maar veeleer dat de interactie en
synchroniciteit van globalisering, de toegankelijkheid van data en kennis
door ICT, de nood van onderwijsbeleid en -praktijk aan ‘evidence’ en de
methodologische mogelijkheden om precies die kennis te ontwikkelen
die aan al deze noden tegemoet kwam, daarvoor verantwoordelijk moeten
worden geacht. Deze processen grepen op elkaar in en versterkten elkaar.
De ontwikkeling van internationale onderwijsindicatoren is hiervan een
erg verhelderend voorbeeld.
Het verzamelen en publiceren van allerlei basisgegevens over het onder-

wijs op internationaal vlak gebeurt al relatief lang. Het IBE, de UNESCO en
de OESO verzamelen en publiceren al lang nationale data over participatie
aan onderwijs, over financiële en menselijke resources voor het onderwijs
en over scholingsgraad van de bevolking. Op dit moment vormt de jaarlijks
gepubliceerde Education at a Glance van de OESO een onschatbare bron van
dergelijke data. Dergelijke inputgegevens zijn interessant en noodzakelijk,
maar beïnvloeden op zich niet drastisch het onderwijsbeleid in landen
zelf. Hoe moeilijk ze ook op een methodologisch verantwoorde wijze te
verzamelen zijn – denken we alleen maar aan de internationaal vergelij-
kende definities van onderwijsniveaus, waarvoor de UNESCO de ISCED-
classificatie heeft moeten ontwikkelen –, op zich zijn het vrij eenvoudige
gegevens.
Bij gebrek aan andere en betere indicatoren werden ze soms gebruikt om

de kwaliteit van onderwijssystemen bij benadering te meten, maar het
begrip ‘proxy’ werd daarbij vaak zodanig ver uitgetrokken dat de grens van
het wetenschappelijk toelaatbare ver werd overschreden. Zo is het vandaag
nog steeds zo dat de UNESCO data publiceert over de graad van analfabe-
tisme in een land, terwijl er in de meeste ontwikkelingslanden uiteraard
geen enkele wetenschappelijk aanvaardbare meting van de geletterdheid
van de bevolking is uitgevoerd. Men hanteert gewoon het aantal mensen
dat minimaal vier jaar formele scholing heeft gelopen als maat voor het
aantal geletterden in de bevolking.
De transitie naar het meten van reële leeruitkomsten (‘learning outco-

mes’) op een internationaal vergelijkende manier is in dit verband meer
dan een gewone stap in een ontwikkeling, het is een echte kwalitatieve
sprong voorwaarts. De verschillende projecten van de International
Association for the Evaluation of Educational Achievement (IEA), waaron-
der vooral de Trends in International Mathematics and Science Study
(TIMSS) en de Progress in International Reading Literacy Study (PIRLS),
zijn daarbij baanbrekend geweest. Maar het is toch vooral de OESO, die
met de International Adult Literacy Survey (IALS) en uiteraard vooral het
Programme for International Student Assessment (PISA) zowel weten-
schappelijk als maatschappelijk het meeste impact heeft. Dankzij
baanbrekend wetenschappelijke en methodologische ontwikkelingen is
het nu mogelijk om op een internationaal vergelijkende manier reële
leerresultaten te meten en dus niet alleen meer de input, maar ook en
vooral de reële output in termen van reële competenties van lerenden (en
niet alleen kwalificaties) van onderwijssystemen zichtbaar te maken.
De impact hiervan kan moeilijk overschat worden. De publicatie van de

resultaten van de eerste PISA-survey bracht een enorm schokeffect teweeg
in vele van de deelnemende landen. Er zijn vele andere voorbeelden te
geven, maar de PISA-schok in Duitsland bijvoorbeeld was enorm en doet
zich telkens opnieuw voor bij elke nieuwe publicatie (Ertl, 2006). Vooral
het feit dat deze data zich lenen (of laten verleiden) tot het rangschikken
van landen in termen van onderwijskwaliteit is daarbij cruciaal. Landen
die zich minder goed geclassificeerd zien dan hun ‘pedagogisch zelfbeeld’
hen laat vermoeden, ervaren een zware schok wanneer de reële onderwijs-
leerresultaten op een vergelijkende manier worden gemeten. Zonder enige
twijfel is de impact van PISA het grootst, maar ook andere dergelijke
onderzoeksprojecten hebben een erg grote impact. Zo heeft de
International Adult Literacy Survey (IALS), die de geletterdheid en
gecijferdheid van de volwassen bevolking in beeld bracht, al in de jaren
negentig een erg grote impact gehad (Van Damme, 1998).
Het weinig bekende voorbeeld van Frankrijk is illustratief, waar tot op het
niveau van de president de discussie over de al dan niet publicatie van de
slechte Franse resultaten werd gevoerd en inderdaad tot de niet-publicatie
en de terugtrekking van Frankrijk uit het consortium werd besloten. De
publieke en politieke discussie over dergelijke data is natuurlijk het meest
zichtbaar, maar de reële impact van het meten en publiceren van vergelijk-
bare leerresultaten strekt veel verder: er zijn voorbeelden bekend van
belangrijke investeringsbeslissingen van multinationale ondernemingen
waarbij de beschikbaarheid van dergelijke gegevens een rol hebben
gespeeld. Sinds Finland in de PISA-rankings als het land met de beste
leerresultaten staat geboekstaafd, is er een constante stroom van
onderwijsprofessionals en -wetenschappers richting Finland op gang
gekomen, die allen het geheim van het Finse PISA-succes willen te weten
komen.
De impact van PISA en andere dergelijke internationale onderwijsonder-

zoeken naar leerresultaten gaat natuurlijk verder dan het politieke en
publieke schokeffect. Het interessante van PISA is dat het leidt tot erg
relevante en interessante vragen over de reële bijdragen van onderwijs aan
economische en sociale vooruitgang. Zo hebben de Duitse PISA-resultaten
geleid tot een erg heftige maar noodzakelijke discussie over de mate
waarin het selectieve Duitse onderwijsbestel de kwaliteit van enkelen
heeft gecompenseerd met een zeer ongelijke onderwijskwaliteit voor vele
anderen. In Vlaanderen bijvoorbeeld, met een zeer goede gemiddelde
PISA-score, hebben de PISA-resultaten de erg zwakke leerresultaten van
migrantenkinderen laten zien, hetgeen geleid heeft tot een politiek debat
en verschillende beleidsmaatregelen van de regering. De beleidsverklaring
van de Vlaamse minister van onderwijs in 2004, ‘Vandaag kampioen in
wiskunde, morgen ook in gelijke kansen’, was een rechtstreekse verwij-
zing naar en een politieke problematisering van de Vlaamse PISA-
resultaten van 2003: gemiddeld uitstekend, maar met een erg grote
spreiding. De PISA-data hebben overigens in het algemeen de problema-
tiek van sociale ongelijkheid in onderwijskansen en -uitkomsten hoog op
de onderzoeks- en beleidsagenda geplaatst (Doyle, 2008).
De ontwikkeling van dergelijke internationale data zal in de komende

jaren nog verder gaan. PISA heeft tot dusver betrekking gehad op taal,
wiskunde en wetenschappelijke geletterdheid, maar vandaag wordt
conceptueel en methodologisch werk verricht om ook andere competen-
ties op eenzelfde wijze meetbaar te maken. Aandacht gaat daarbij vooral
naar de zogenaamde ‘21st century skills’ zoals creativiteit, probleemoplos-
send vermogen, communicatievaardigheden, enzovoort. Op het terrein
van het meten van competenties van volwassenen zal het Programme on
International Assessment of Adult Competencies (PIAAC) – de eerste
dataverzameling is gepland voor 2012-13 – wellicht eveneens een zeer grote
impact hebben.
7.4 Voor en tegen

Er is de laatste jaren bij onderwijsonderzoekers en onderwijsprofessionals
een toenemende kritiek te merken op PISA en soortgelijke internationale
surveys van leerresultaten. Bij een aantal onder hen is die kritiek vaak erg
ideologisch getint en beschouwt men PISA en bij uitbreiding het interna-
tionale onderzoekswerk van de OESO als een exponent van een neolibe-
raal en marktgericht offensief in het onderwijs. Sotiria Grek (2009), Martin
Lawn en anderen in het Europees onderzoeksproject ‘Governing by
numbers’ bijvoorbeeld bekritiseren de drang van nationale onderwijsover-
heden om zich te ranken en te vergelijken met andere landen als een vorm
van vermarkten van het onderwijsbeleid. Spring (2008) vertolkt de wijd
verbreide mening dat PISA tot een algemene standaardisering van
curricula en onderwijsdoelen in functie van de globaliserende markteco-
nomie leidt. Nog anderen hebben PISA vooral op methodologische
gronden bekritiseerd, maar de meeste pogingen om dit te doen zijn van
een kale kermis teruggekomen: onafhankelijke methodologische reviews
hebben keer op keer de wetenschappelijke deugdelijkheid van de gehan-
teerde methodologie bevestigd.
Uiteraard zijn er kritische kanttekeningen te maken bij de impact van

internationale surveys van leerresultaten en vooral de politieke hantering
van de uitkomsten van dergelijk internationaal onderwijsonderzoek. De
gevaren van over-interpretatie van de data, van de-contextualisering ervan
en zelfs van politieke manipulatie ervan zijn niet denkbeeldig. Maar
internationaal onderwijsonderzoek is daarbij niet intrinsiek verschillend
van ander soort onderzoek. Rangschikken en ordenen op een lineaire
schaal is een valabele en legitieme manier om inzicht te krijgen in
complexe realiteiten, maar kan uiteraard ook een erg reductionistische
manier zijn om die complexiteit weer te geven. Het valt moeilijk te
ontkennen dat de vrij sterke cohesie van de Finse samenleving, de sterke
historische waardering voor leren en educatie en zelfs de geografische
structuur van het land een positieve rol spelen bij de uitstekende Finse
PISA-resultaten, net als onderwijsinterne factoren zoals het uitstekende
niveau van en de selectieve toegang tot de lerarenopleiding. Er is geen
‘magic formula’ die met een aantal eenvoudige ingrepen een land ertoe
kan brengen zich in een aantal jaren op hetzelfde niveau als Finland te
positioneren.
Misschien is de belangrijkste ontstaansgrond van internationaal onder-

zoek naar leerresultaten zoals PISA, namelijk de internationale convergen-
tie van onderwijssystemen, ook de meest kritische kant ervan.
Internationale interactie heeft tot dusver vooral aanleiding gegeven tot
convergentie, tot gelijkvormigheid. De impact van internationaal
onderwijsonderzoek heeft deze convergentietendens nog versterkt omdat
landen leentjebuur zijn gaan spelen bij andere landen die het in deze
onderzoeken blijkbaar beter doen. Theoretisch is het eigenlijk perfect
mogelijk dat eenzelfde onderwijsmaatregel in een andere context eerder
tot negatievere resultaten zou kunnen leiden in plaats van tot de gewenste
verbetering. Internationale statistieken hebben ook de impliciete neiging
dat het gemiddelde of een ander punt op de schaal als een soort van
normatieve benchmark gaat opereren. Beleidsaanbevelingen maken op
grond van het afwijken van een bepaalde statistische norm is een
reductionistische en dus potentieel risicovolle onderneming. PISA-data en
andere vormen van internationaal onderwijsonderzoek moeten, mis-
schien meer nog dan uitkomsten van ander soort onderzoek, als een
uitnodiging worden gezien om dieper in de werkelijkheid af te dalen, en
niet als een soort eenvoudige statistische werkelijkheid die als norm
fungeert.
Literatuur
Cowen, R. & A.M. Kazamias (eds.) (2009). International Handbook of Comparative Education
(Dordrecht: Springer).
Crossley, M. & K. Watson (2003). Comparative and international research in education.
Globalization, context and difference (London: Routledge).
Daele, H. van (1993). L’Education comparée (Paris: PUF).
Damme, D. van (1990). Armenzorg en de staat. Comparatief-historische studie van de origines van
de moderne verzorgingsstaat in West-Europa (Gent: MIOS).
Damme, D. van (1998). ‘Wat leert ons de International Adult Literacy Survey?
Beleidsaanbevelingen op basis van de internationale en Vlaamse IALS-resultaten’,
Tijdschrift voor Onderwijsrecht en Onderwijsbeleid, 3-4, 248-261.
Damme, D. van(2009). ‘The search for transparency: convergence and diversity in the
Bologna process’, in: F. Van Vught (ed.), Mapping the higher education landscape. Towards
a European classification of higher education (Dordrecht: Springer), 39-56.
Doyle, A. (2008). ‘Educational performance or educational inequality: what can we learn
from PISA about France and England?’, Compare: A Journal of Comparative and International
Education, 38(2), 205-217.
Ertl, H. (2006). ‘Educational standards and the changing discourse on education: the
reception and consequences of the PISA study in Germany’, Oxford Review of Education,
32(5), 619-634.
Grek, S. (2009), ‘Governing by numbers: the PISA ‘effect’ in Europe’, Journal of Education Policy,
24(1), 23-37.
Grek, S. e.a. (2009). ‘National policy brokering and the construction of the European
Education Space in England, Sweden, Finland and Scotland’, Comparative Education, 45(1),
5-21.
Heinze, T. & Chr. Knill (2008). ‘Analysing the differential impact of the Bologna Process:
Theoretical considerations on national conditions for international policy convergence’,
Higher Education. 56, 493-510.
OECD/CERI (2007). Evidence in education. Linking research and policy (Paris: OECD).
Spring, J. (2008). ‘Research on globalization and education’, Review of Educational Research,
78(2), 330-363.
08
Evidence based
policy in
ontwikkelings
samenwerking10
Frans Leeuw
Directeur WODC
&
Jos Vaessen
Universitair docent, UM
10
Dank aan Rien Rouw, (OCW), voor suggesties met betrekking tot de redactie en de
bereidheid de samenvatting van het Nonie Guidance document (Leeuw & Vaessen, 2009)
te laten vertalen. Het belangrijkste deel van dit hoofdstuk is hierop gebaseerd.
8.1 Inleiding
Discussies over het belang van evidence based beleid en de rol van
evaluaties daarbij spelen niet alleen op het terrein van het onderwijs. In de
strijd tegen criminaliteit werd al in de jaren tachtig onder de titel ‘what
works’ intensief over een soortgelijk vraagstuk gesproken. Een hoogte-
punt werd midden jaren negentig bereikt toen de Amerikaanse Minister
van Justitie hoogleraar Lawrence Sherman verzocht de stand van zaken op
te maken van de vele honderden interventies én van de daarbij passende
evaluaties. Zijn vraag was wat er nu eigenlijk bekend was over de effectivi-
teit van interventies en hoe serieus (dat wil zeggen wetenschappelijk) dat
was vastgesteld. Het leidde tot een kloek rapport dat drie consequenties
had.
De eerste was dat vastgesteld werd dat veel interventies en programma’s

niet werken of twijfelachtig zijn. De tweede consequentie was dat de door
Sherman e.a. gebruikte ‘schaal’, waarop designs van evaluatieonderzoek
gewaardeerd werden, een brede verspreiding kreeg in de criminologie en
aanverwante disciplines (vgl. Wartna, 2009; Kleemans et al, 2007).
Kernpunt van deze schaal is een ordening in vijf niveaus van ‘evaluatiede-
signs’. Het laagste niveau is het correlationele design waarbij in feite
alleen wordt gekeken naar de uitkomstvariabele (bijvoorbeeld de mate van
jeugdcriminaliteit) op een bepaald punt in de tijd, zonder een vergelijking
te maken met de periode vóór invoering van een beleidsinterventie, of
met situaties waarin deze niet is toegepast. Het hoogste niveau is het
experimentele evaluatieonderzoek (randomized controlled trial - RCT).
Een derde consequentie is dat evaluatoren kritischer zijn geworden ten

aanzien van het gebruik van procesevaluaties en andere evaluatietypen
(dan de experimentele en quasi-experimentele) bij het beantwoorden van
vragen naar resultaten en ‘effecten’. Overigens niet zonder (vaak) inten-
sieve debatten. Deels gaan die over de vraag of dit type evaluaties ethisch
wel kan, of ze niet inhoudelijk of theoretisch ‘te leeg’ zijn en of ze niet
eenzijdig gericht zijn op enkelvoudige interventies, waardoor complexe
interventies buiten beschouwing blijven (vgl. van der Knaap et al, 2008;
Nelen, 2008; van Laar & van Ooyen, 2009).
Ondanks deze debatten hebben experimenteel criminologische studies en

krachtige effectevaluaties redelijk vaste voet aan de grond gekregen.
Wartna’s bijdrage aan deze publicatie geeft meer informatie over achter-
gronden, aanpakken en resultaten.
Het tweede aanpalende ‘perceel’ is dat van de ontwikkelingssamenwer-

king. Daar deed zich tot op zekere hoogte een soortgelijke ontwikkeling
voor. Vele jaren van vele evaluaties konden niet voorkomen dat in een
rapport van het Center for Global Development (2006) geconstateerd werd
dat er eigenlijk weinig bekend was over de ‘impact’ van de diverse vormen
van ontwikkelingssamenwerking. In belangrijke mate had dat te maken
met de aard van de evaluatieonderzoeken die bij honderden, zoniet
duizenden, jaarlijks verricht worden door de ‘evaluatie-industrie’ in dit
veld (vgl. Leeuw & Cooksey, 2005).
Net zoals dat door Sherman e.a. (1997) gebeurde, zette het rapport ‘When
will we ever learn’ van het Center for Global Development een beweging in
gang om meer werk te maken van ‘robuuste impactevaluaties’. Ook hier
niet zonder hevige discussies. Zo is beweerd dat de wereld van de ontwik-
kelingssamenwerking zich niet ‘zou lenen’ (om politieke en ethische
redenen) voor experimentele en quasi-experimentele effectstudies, dat de
studies data gebruiken die invalide en onbetrouwbaar zijn en dat alleen
korte-termijn-effecten op deze manier getraceerd worden. Voor evaluato-
ren die vooral experimenteel willen werken bestaat al een soort van
scheldwoord, de ‘randomistas’ (Leeuw & Vaessen, 2009; Ravallion, 2009).
Echter, ook hier is de ontwikkeling naar meer robuuste evaluaties evident.
Recente initiatieven zoals de “poverty action lab” en “poverty in action”
financieren en implementeren vooral studies gebaseerd op experimentele
ontwerpen. Andere organisaties zijn ook voorstander van dergelijke
benaderingen maar stimuleren een bredere waaier van robuuste metho-
den voor impact evaluatie. Voorbeelden zijn de Wereldbank en een
semi-private organisatie ‘International Initiative for Impact Evaluation’
(3ie). Ook bestaat er het NONIE, het ‘Network of Networks Impact
Evaluation Initiative’ (www.worldbank.org/ieg/nonie), dat zich ten doel
stelt kwalitatief sterke effectevaluaties te laten verrichten.
8.2 Impactevaluaties in ontwikkelingssamenwerking
8.2.1 Waarom ‘evidence based denken’ in de ontwikkelingssamenwerking?

Waarom zou men in een boekje over evidence based onderwijs aandacht
besteden aan ontwikkelingssamenwerking? Is dat niet een ver van mijn
bed show? Volgens ons niet. De eerste reden daarvoor is dat de hierboven
beschreven debatten over de waarde van experimenteel onderzoek
vergelijkbaar zijn met debatten die in de onderwijswereld worden gevoerd.
De tweede reden is dat op het terrein van ontwikkelingssamenwerking
een poging is gedaan om het debat over evaluatie te ontdoen van ideolo-
gie, zodat professionaliteit de boventoon kan voeren.
Een belangrijk initiatief dat voortkwam uit de gemeenschap van donoren

en hun partners uit het Zuiden is het hierboven beschreven NONIE. In
2006 is NONIE opgericht met het oog op de uitvoering van meer en betere
impactevaluaties door zijn leden. De leden van NONIE bestaan uit de
evaluatienetwerken van bilaterale en multilaterale ontwikkelingsorgani-
saties en netwerken van evaluatoren van ontwikkelingslanden. Deze
aangesloten netwerken voeren een breed pakket evaluaties uit, die zich
richten op zaken als de prestaties van projecten en strategieën, institutio-
nele ontwikkeling of de effectiviteit van hulp. De focus van NONIE is
echter meer toegespitst. Door het verspreiden van methodologische
benaderingen en het stimuleren van ‘learning by doing’ op het gebied van
impactevaluaties wil NONIE bevorderen dat de leden deze meer specifieke
aanpak gaan gebruiken in hun bredere evaluatieportefeuille.
Waarom moeten impactevaluaties worden bevorderd? In de ontwikke-

lingspraktijk spelen impactevaluaties een sleutelrol in het streven naar
meer duidelijkheid over de resultaten en de effectiviteit van ontwikke-
lingshulp. Impactevaluaties zijn uitermate geschikt om antwoord te geven
op belangrijke vragen, bijvoorbeeld of ontwikkelingsinterventies een
succes zijn, of ze een verschil maken en hoe kosteneffectief ze zijn. Op die
manier kunnen ze helpen om schaarse middelen daar in te zetten waar ze
de meeste ontwikkelingsimpact hebben.
Hoewel er onder vakgenoten een discussie gaande is over de precieze

definitie van impactevaluatie, gaat NONIE bij het hanteren van de term uit
van de definitie van ‘impact’ die is vastgesteld door de Commissie voor
Ontwikkelingsbijstand (Development Assistance Committee – DAC) van de
OESO, namelijk: “de positieve en negatieve, primaire en secundaire
effecten op lange termijn die voortvloeien uit een ontwikkelingsinterven-
tie, direct of indirect, bedoeld of onbedoeld.”
Als we de DAC-definitie van impact overnemen, zijn daaraan twee

onderliggende vooronderstellingen verbonden:
1 Attributie: De woorden ‘effecten die voortvloeien uit’ in de definitie van
de DAC impliceren dat het bij impactevaluatie gaat om het attribueren
van effecten aan interventies, en niet alleen om het beoordelen van wat
er is gebeurd.
2 De ‘counterfactual’: Dat betekent dat men, om inzicht te krijgen in de
effecten die voortvloeien uit een interventie, in de meeste situaties
moet proberen te weten te komen wat er zou zijn gebeurd als de interventie er
niet was geweest. Vervolgens moet dit vergeleken worden met hetgeen er is
gebeurd nu de interventie er wel is geweest.
Overigens worden evaluaties die zich richten op korte-termijn-effecten
(‘outcomes’) en dus officieel buiten de DAC-definitie vallen, maar wel zijn
gebaseerd op expliciete analyse van counterfactuals, meestal ook
genoemd onder de noemer van impact-evaluatie.
Deze twee vooronderstellingen betekenen echter niet dat er een aantal
methoden en designs kan worden vastgesteld die in alle situaties te verkiezen
zijn boven alle andere. In dit stuk benadrukken we daarom dat:
■■ Er niet één beste methode is om in te gaan op de vele verschillende
vragen en aspecten die onderdeel kunnen uitmaken van

impactevaluaties.
■■ A fhankelijk van de specifieke vragen of doelstellingen van een bepaalde
impactevaluatie, sommige methoden een comparatief voordeel hebben

ten opzichte van andere.
■■ Bepaalde methoden en designs elkaar aanvullen en een vollediger
‘beeld’ opleveren van de impact van een beleidsmaatregel of praktijk.
8.2.2 De NONIE-leidraad voor impactevaluaties: ’key issues’

Deze bijdrage is gebaseerd op een leidraad die de auteurs hebben geschre-
ven voor de wereld van de ontwikkelingssamenwerking en effectevalua-
ties. Die leidraad is bedoeld om de kwaliteit van impactevaluaties op het
terrein van ontwikkelingssamenwerking te verhogen.
Zes methodologische ‘key issues’ zijn te onderscheiden:

■■ Stel de aard en de reikwijdte van de interventie vast.
Is het bijvoorbeeld een enkelvoudige interventie of is sprake van een omvattend

programma? Heeft de interventie invloed op meerdere niveaus (burgers, groepen,
organisaties, instituties)?
■■ Stel vast waaraan belang wordt gehecht.
Voor wie is de interventie van belang, wie zijn de stakeholders? Welke waarden en
belangen hebben die stakeholders?
■■ Verwoord zorgvuldig de theorie die aan de interventies ten grondslag
ligt en op grond waarvan verwacht wordt dat de interventie/beleid

effectief zal zijn.
Welke verwachtingen bestaan over de werkzaamheid van de interventie? Hoe is de
theorie achter een interventie op te sporen?
■■ Pak het attributieprobleem aan.
Hoe kun je vaststellen dat een interventie onlosmakelijk is verbonden met waargeno-
men effecten?
■■ Hanteer een mix van methoden (oftewel: werk in lijn van de logica van
de comparatieve voordelen van methoden).

Alle onderzoeksmethoden en designs hebben voor- en nadelen. Stel een optimale mix
van designs en methoden samen om de onderzoeksvraag te beantwoorden.
■■ Maak gebruik van bestaande kennis over de impact van interventies.
Gebruik reviews om de kennis over interventies te bundelen.
Daarnaast hebben we drie richtlijnen voor het managen van impactevalua-
ties onderscheiden:
■■ Bepaal of een impactevaluatie haalbaar is en het geld waard is.
Omdat een impactevaluatie duur is, is het belangrijk om zich vooraf te verzekeren dat
de resultaten gebruikt gaan worden.
■■ Begin tijdig met het verzamelen van gegevens.
Zet de gegevensverzameling zo vroeg mogelijk in het beleidsproces op.

■■ ‘Front-end planning’ is belangrijk.
Schenk vanaf het begin van de evaluatie aandacht aan het latere gebruik ervan.
In de praktijk van het evalueren van beleid zijn vooral de punten 3 tot en
met 6 relevant. In de volgende paragrafen worden deze punten dan ook
verder toegelicht.
8.2.3 Verwoord zorgvuldig de theorie die interventies met resultaten

verbindt
Ontwikkelingsbeleid en ontwikkelingsinterventies zijn doorgaans
bedoeld om het gedrag of de kennis van huishoudens, individuen en
organisaties te beïnvloeden. Aan het ontwerp van de interventie ligt
(expliciet of impliciet) een ‘theorie’ ten grondslag, met sociale, gedragsge-
richte en institutionele veronderstellingen, die aangeven waarom een
bepaalde beleidsinterventie geschikt is om een bepaald ontwikkelingspro-
bleem aan te pakken.
Inzicht in deze theorie is essentieel om de aard en de richting van een

impact te kunnen evalueren. Vaak zijn deze theorieën echter gedeeltelijk
‘verborgen’ en moeten ze eerst worden gereconstrueerd en onder woorden
worden gebracht. Hiervoor kunnen een of meerdere bronnen worden
gebruikt — denk aan het bestaande ‘ logical framework’ van de interven-
tie (zij het dat dat doorgaans oppervlakkig is) tot aan theoretisch en
empirisch onderzoek naar veranderingsprocessen of eerdere ervaringen
met soortgelijke interventies.
Nadat de veronderstellingen ten aanzien van het effect van een interventie
op resultaten en impacts zijn verwoord, moeten deze veronderstellingen
worden getoetst. Dit kan op twee manieren worden gedaan: door
zorgvuldig het causale ‘verhaal’ te construeren dat weergeeft hoe de
interventie tot resultaten heeft geleid (bijvoorbeeld met behulp van
‘causal contribution analysis’), of door de causale veronderstellingen
formeel te toetsen aan de hand van geschikte methoden.
8.2.4 Pak het attributieprobleem aan

Bovenstaande stappen zijn van belang om het ‘feitelijke’ (wat er heeft
plaatsgevonden) vast te stellen. Maar omdat er allerlei factoren zijn die
invloed kunnen hebben op ‘wat heeft plaatsgevonden’, is het bij een
impactevaluatie juist wezenlijk om verder te kijken, om inzicht te krijgen
in de toegevoegde waarde van de betreffende beleidsinterventie, los van die andere
factoren.
Waargenomen veranderingen zullen over het algemeen slechts voor een

deel door de betreffende interventie zijn veroorzaakt. Er zal vaak een
wisselwerking zijn met andere interventies binnen of buiten het kernge-
bied, waardoor de effecten van de te evalueren interventie worden
versterkt of afgezwakt. Dit heet het attributieprobleem. Het aanpakken
daarvan betekent dan ook dat de specifieke rol van een interventie moet
worden geïsoleerd en nauwkeurig moet worden gemeten, en dat het
vaststellen van de causaliteit tussen de interventie en de uitkomst
wezenlijk is.
Om inzicht te krijgen in het attributieprobleem, wordt de situatie ‘met

interventie’ vergeleken met wat er zou zijn gebeurd ‘zonder interventie’
(de counterfactual), zie onderstaand figuur. De impact wordt niet gemeten
aan de hand van de waarde van een doelvariabele (punt a), noch aan de
hand van het verschil tussen de situatie ervoor en erna (a–b, gemeten op
de verticale as). De netto-impact is het verschil tussen de waarde van de
doelvariabele na de interventie en de waarde die de variabele zou hebben
gehad als de interventie niet had plaatsgevonden (a–c).
Eenvoudige grafiek van de netto-impact van een interventie
a
➜Value target variable
Before After
Time ➜
Bij het uitvoeren van impactevaluaties is er geen ‘gouden standaard’ (in de
zin van één methode of design die in alle gevallen het beste is). Afhankelijk
van factoren zoals de reikwijdte, de doelstellingen en het ontwerp van de
interventie, en de beschikbaarheid van gegevens, kunnen in specifieke
gevallen bepaalde methoden/designs beter zijn dan andere.
Kwantitatieve technieken kunnen globaal worden ingedeeld in experi-

mentele, quasi-experimentele en regressiegebaseerde technieken. Als
deze goed worden toegepast, hebben ze een comparatief voordeel bij het
aanpakken van het attributieprobleem. In het geval van (quasi-)experi-
mentele methoden wordt de counterfactual gesimuleerd door te kijken
naar de situatie van een groep deelnemers (die profiteert of effect
ondervindt van een interventie, de ‘behandelingsgroep’) ten opzichte van
de situatie van een equivalente vergelijkingsgroep of ‘controlegroep’ (die
geen effect ondervindt van de interventie). Deze technieken proberen een
oplossing te vinden voor het probleem van ‘selectiebias’, wat inhoudt dat
de behandelingsgroep op de een of andere manier afwijkt van de
controlegroep.
Experimentele technieken vermijden selectie-effecten doordat de

behandelings- en de controlegroep hierbij willekeurig uit dezelfde
populatie worden geselecteerd voordat de interventie van start gaat.
In een ‘randomized controlled trial’ (RCT) worden beide groepen geacht

dezelfde gemiddelde kenmerken te hebben, met als enige uitzondering dat
de behandelingsgroep met de interventie is geconfronteerd ( ‘aangebo-
den’ is). Door een vergelijking van de gemiddelde uitkomsten in beide
groepen wordt het attributieprobleem opgelost en verkrijgt men boven-
dien een nauwkeurige schatting van de impact van de interventie.
Ondanks de heldere opzet moeten RCT’s echter zorgvuldig worden
uitgevoerd om te zorgen dat de twee groepen geen verschillende uitval-
percentages hebben en dat er zo weinig mogelijk ‘contaminatie’ is – waar-
bij de controlegroep toch met de interventie te maken krijgt (ofwel
vanwege geografische nabijheid en de ‘spillover’, ofwel vanwege de
aanwezigheid van vergelijkbare, gelijktijdige interventies die invloed
hebben op de controlegroep). Door middel van quasi-experimentele
technieken kunnen vergelijkbare interventie- en vergelijkingsgroepen
worden gesimuleerd.
Pijplijnbenaderingen zijn geschikt voor projecten die gefaseerd worden

ingevoerd. Hierbij worden de uitkomsten voor huishoudens en gemeen-
schappen, die de interventie reeds hebben meegemaakt (de behandelings-
groep), vergeleken met huishoudens en gemeenschappen die zijn
geselecteerd maar nog niet hebben deelgenomen (de controlegroep).
Pijplijnbenaderingen zijn echter alleen betrouwbaar als de behandelings-
en de controlegroep dezelfde kenmerken hebben. Er kan een selectiebias
ontstaan door zelfselectie (wie het liefst wil deelnemen, komt het eerst
aan de beurt) of door geografische vertekeningen (zoals een verschuiving
van landelijke naar stedelijke gebieden).
Bij ‘propensity score matching’ wordt achteraf een controlegroep

samengesteld waarvan de leden worden geselecteerd op basis van
waargenomen en relevante kenmerken, die overeenkomen met de
kenmerken van de leden van de behandelingsgroep. De paren worden niet
gevormd door alle kenmerken exact te matchen, maar door groepen te
selecteren die - op basis van waarneembare kenmerken - dezelfde kans
hebben om in de steekproef te worden opgenomen als de behandelings-
groep. Deze techniek voorkomt echter niet dat er een bias kan optreden,
aangezien niet-waargenomen verschillen tussen de groepen niet worden
meegenomen. Bovendien kan er een grote steekproef nodig zijn voor de
selectie van de vergelijkingsgroep. Dit wordt gewoonlijk opgelost door
deze techniek te combineren met ‘double difference’ of ‘difference-in-
difference’, waarbij verschillen tussen de twee groepen voor en na de
interventie worden gemeten, zodat voor de niet-waarneembare verschil-
len wordt gecorrigeerd (zolang ze in de loop van de tijd constant blijven).
‘Judgmental matching’ is een aanzienlijk minder nauwkeurige methode,

die gebruikmaakt van beschrijvende informatie om vergelijkingsgroepen
samen te stellen. In overleg met opdrachtgevers van de evaluatie,
respectievelijk beleidsmakers en andere goed geïnformeerde personen
worden eerst relevante matching-kenmerken vastgesteld, waarna
geografische informatie, secundaire gegevens (zoals onderzoek onder
huishoudens), interviews en belangrijke informatiebronnen worden
gecombineerd om vergelijkingsgebieden of individuen/huishoudens te
selecteren die de beste match van kenmerken vertonen. Het subjectieve
element hierbij kan echter vertekeningen opleveren, zodat nader kwalita-
tief onderzoek nodig is om niet-waargenomen verschillen toch in de
analyse te kunnen betrekken.
Regressiegebaseerde technieken zijn meer flexibele instrumenten voor

impactevaluatie achteraf, die soepel omgaan met allerlei verschillende
aspecten: heterogeniteit in behandelingen, meerdere interventies,
heterogene kenmerken van deelnemers, wisselwerkingen tussen
interventies, en wisselwerkingen tussen interventies en specifieke
kenmerken. Een regressiebenadering maakt het mogelijk te schatten welk
aandeel een afzonderlijke interventie heeft gehad in het totale effect, of
wat het effect is van de wisselwerking tussen twee interventies.
Omgaan met niet-waarneembare variabelen en endogeniteit: bij ‘differen-
ce-in-difference’-benaderingen in een regressiemodel, die onderzoeken
hoe groepen in de loop van de tijd veranderen, kunnen niet-waargenomen
(tijdsinvariante) variabelen wegvallen uit de vergelijking. De benadering is
vergelijkbaar met een regressiemodel met vaste effecten. ‘Instrumentele
variabelen’ kunnen behulpzaam zijn bij endogeniteit, omdat een goed
instrument correleert met de originele endogene variabele in de vergelij-
king, maar niet met de ‘error term’. De ‘difference-in-difference’-methode
is echter gevoeliger voor meetfouten in de gegevens dan andere methoden
en afhankelijk van de beschikbare gegevens is het niet altijd mogelijk om
goede instrumenten te vinden.
Regression-discontinuity-designs zijn geschikt voor programma’s die een

bepaalde grens(waarde) hanteren om de doelgroep af te bakenen (zoals
inkomensdrempels). Deze methode vergelijkt de behandelingsgroep die
nog net binnen de grens ligt met een controlegroep die er net buiten ligt.
Het is onwaarschijnlijk dat er juist op dat punt niet-waargenomen
verschillen zijn tussen de twee groepen. De impact kan daarom worden
geschat door het gemiddelde verschil tussen de regressielijn van de
behandelingsuitkomsten vóór de interventie te vergelijken met de
regressielijn erna. Deze methode beoordeelt echter alleen de marginale
impact van het programma rond de grenswaarde voor deelname, en niet
over het gehele spectrum van mensen die invloed van de interventie
ondervinden. Bovendien moet erop worden gelet dat individuen het
selectieproces of de drempelwaarde niet kunnen beïnvloeden.
Kwantitatieve technieken zijn niet waterdicht en kunnen beperkingen

hebben die verder reiken dan de hierboven genoemde technische
beperkingen. Schatting van de counterfactual is niet mogelijk bij alge-
mene interventies, zoals prijsbeleid of ruimtelijke regelgeving, waar
iedereen mee te maken krijgt (zij het in verschillende mate ). In zo’n geval
is er behoefte aan regressiegebaseerde technieken die zich richten op de
verschillen in blootstelling/deelname. Er zijn ook nog bepaalde pragmati-
sche beperkingen, zoals ethische bezwaren tegen randomisatie, of gebrek
aan gegevens over de uitgangssituatie van de doelgroepen van de
interventie. Verder zijn eenvoudige kwantitatieve benaderingen soms
ongeschikt in ‘complexe’ contexten, alhoewel de methodologische
problemen van het evalueren van gecompliceerde interventies tot op
zekere hoogte kunnen worden ‘geneutraliseerd’ door ze te ontleden in
hun ‘werkzame bestanddelen’.
Niet-kwantitatieve technieken zijn vaak minder doeltreffend om het

attributieprobleem aan te pakken, hoewel ze een comparatief voordeel
kunnen hebben als het gaat om interventies die opereren in complexe
settings. Toch kunnen ze bij impactevaluaties wel nuttig zijn om informa-
tie te verkrijgen over de reikwijdte, de doelstellingen en de onderliggende
interventietheorie, en ook om gegevens en bewijsmateriaal te genereren
of aan te vullen.
Participatieve benaderingen zijn van een geheel andere signatuur. Het zijn
niet-kwantitatieve instrumenten, die uitgaan van het principe dat
stakeholders moeten worden betrokken bij bepaalde of alle fasen van de
evaluatie. In het geval van impactevaluatie gaat het daarbij onder meer om
aspecten zoals het vaststellen van de doelstellingen, de in aanmerking te
nemen indicatoren en deelname van stakeholders aan het verzamelen en
analyseren van gegevens. De diverse methoden in deze categorie berusten
op verschillende maten van participatie, uiteenlopend van raadpleging tot
samenwerking tot gezamenlijke besluitvorming. Participatieve benaderin-
gen kunnen handig zijn om te komen tot een meer volledige en/of meer
geschikte reeks gewaardeerde impacts, meer betrokkenheid en meer
begrip tussen stakeholders onderling, en beter inzicht in veranderingspro-
cessen en de manieren waarop mensen door interventies worden
beïnvloed. Maar hoe hoger de mate van participatie, des te kostbaarder en
lastiger het is om een impactevaluatie op te zetten. Participatieve
benadering is dan ook ongeschikt voor grootschalige, uitgebreide
interventies zoals sectorprogramma’s. Bovendien kleven er serieuze
nadelen aan de validiteit van informatie die uitsluitend is gebaseerd op de
beleving en ervaringen van stakeholders. Tot slot kan de validiteit van de
gegevensverzameling en -analyse ook nog worden beïnvloed doordat
stakeholders strategische antwoorden geven, gegevens manipuleren of
bepaalde belangen op de voorgrond plaatsen.
In het algemeen geldt voor impactevaluaties dat, met het oog op het
attributieprobleem, goed ontworpen kwantitatieve methoden doorgaans
de voorkeur hebben. Kwalitatieve technieken kunnen de veranderingen
die aan interventies zijn toe te schrijven, niet kwantificeren, maar moeten
wel worden gebruikt om belangrijke aspecten te evalueren waarvoor
kwantificering niet mogelijk of niet praktisch is en om aanvullende en
diepgaande perspectieven op veranderingsprocessen ten gevolge van
interventies te ontwikkelen.
8.2.5 Hanteer een mix van methoden

Elke afzonderlijke methode/design zoals hierboven genoemd, heeft
comparatieve voordelen ten aanzien van specifieke wensen en behoeften
in het kader van een impactevaluatie. Inzicht in deze comparatieve
voordelen kan worden verkregen aan de hand van vier verschillende
soorten validiteit (Cook en Campbell, 1979; Shadish et al., 2002).
Deze vier soorten zijn:
■■ Interne validiteit: vaststellen dat er een causaal verband is tussen de
resultaten van een interventie en de veranderingsprocessen die tot

uitkomsten en impacts leiden.
■■ Constructvaliditeit: ervoor zorgen dat de gemeten variabelen een
adequate weergave vormen van de onderliggende realiteit van

ontwikkelingsinterventies.
■■ Externe validiteit: vaststellen dat bevindingen generaliseerbaar zijn naar
andere settings.
■■ Statistische conclusievaliditeit: bij kwantitatieve technieken, waarbor-
gen van de zekerheid of een verband tussen interventie en impactvaria-

bele daadwerkelijk (i.e. op niveau van de referentiepopulatie) bestaat en
de sterkte daarvan.
Qua interne validiteit zijn RCT’s aantoonbaar beter dan de meeste andere
methoden. Als ze goed zijn ontworpen, kan de counterfactual worden
vastgesteld; de gerandomiseerde projectvoordelen (binnen een relatief
homogene populatie) zorgen ervoor dat er geen systematische verschillen
zijn tussen de ontvangers en de niet-ontvangers van de voordelen. Echter
RCT’s controleren op verschillen tussen groepen binnen de specifieke
setting waarop de evaluatie betrekking heeft. Andere settings hebben
andere kenmerken die niet worden gecontroleerd, zodat de externe
validiteit van dergelijke RCT’s beperkt kan zijn, tenzij er een systematische
en grote reeks RCT’s is uitgevoerd, die de interventie evalueren over het
gehele spectrum van daadwerkelijk voorkomende settings en beleidsop-
ties. Dit is in de meeste gevallen niet haalbaar of onrealistisch.
Verder kunnen diepgaande kwalitatieve methoden die de complexiteit en

diversiteit van institutionele en sociale verandering in aanmerking
proberen te nemen, qua constructvaliditeit een comparatief voordeel
hebben bij het beoordelen van de bijdrage van complexe en multidimensi-
onele interventies of impacts. Impacts op armoede of de kwaliteit van de
‘governance’, bijvoorbeeld, zijn moeilijk volledig te vangen in duidelijke,
kwantificeerbare indicatoren die gewoonlijk in RCT’s en sommige
quasi-experimentele methoden worden gebruikt. Daarnaast kunnen deze
impacts misschien beter worden gemeten met behulp van kwalitatieve
technieken. Echter, deze methoden kunnen tegelijkertijd ook onvoldoen-
de scoren op het criterium van de externe validiteit. Comparatieve
voordelen zijn dan te vinden in kwantitatieve benaderingen met een grote
steekproef die een aanzienlijke diversiteit aan contexten en mensen
bestrijken.
Ook kan er een mix van methoden worden gebruikt, ‘triangulatie’ van
informatie van verschillende benaderingen, om verschillende facetten van
complexe uitkomsten of impacts te beoordelen, wat een grotere validiteit
oplevert dan één enkele methode. Als het bijvoorbeeld gaat om de impact
van stimuleringsmaatregelen op de benutting van het arbeidspotentieel
en de middelen van bestaan van boeren, kan de effectiviteit van verschil-
lende afzonderlijke maatregelen voor arbeid en inkomenseffecten worden
getoetst met een gerandomiseerd experiment (toetsing van de interne
validiteit). Deze analyse kan worden verdiept aan de hand van onderzoeks-
gegevens en casestudy’s door te kijken naar de verdeling van deze effecten
over verschillende soorten boerenhuishoudens (triangulatie met de
RCT-informatie over de interne validiteit en vergroting van de externe
validiteit). Daarnaast kunnen semi-gestructureerde interviews en
focusgroepgesprekken meer algemene informatie opleveren over de aard
van de effecten in termen van productie, consumptie, armoede enz.
(vaststelling van de constructvaliditeit).
Een laatste punt is dat een analyse van de verdeling van kosten en baten als
gevolg van een interventie, waarbij onderscheid wordt gemaakt tussen
bereik, effecten voor direct betrokkenen en indirecte effecten, niet met
één bepaalde methode kan worden uitgevoerd. Wie in al deze aspecten is
geïnteresseerd, zal onvermijdelijk een combinatie van meerdere metho-
den en bronnen moeten gebruiken.
8.2.6 Maak gebruik van bestaande kennis over de impact van interventies
Review- en synthesemethoden kunnen een centrale rol spelen bij het
bundelen van bestaande kennis om de kracht en de validiteit van een
impactevaluatie te vergroten, om bij te dragen tot toekomstige kennisop-
bouw en om in de informatiebehoefte van stakeholders te voorzien.
Concreet dienen deze methoden twee doelen. Ten eerste versterken ze de

externe validiteit, doordat ze vergelijkbare interventies in verschillende landen
en regio’s beoordelen. Dit betekent dat de relatieve effectiviteit van
alternatieve interventieontwerpen in andere contexten wordt beoordeeld.
Daarnaast dragen ze bij aan kennis over wat werkt, wat niet, voor wie en
voor hoe lang, doordat veel interventies ‘gebruik maken’ van vergelijkbare
gedragsmechanismen die de ‘triggers’ van de beoogde veranderingen zijn.
In deze categorie vallen diverse methoden:
■■ Systematische reviews zijn syntheses van primaire studies die – op basis
van expliciet uiteengezette doelstellingen en volgens een transparante,

systematische en repliceerbare protocollen en methodieken – litera-
tuuronderzoek doen, duidelijke criteria hanteren om studies al dan niet
op te nemen en informatie uit de beschikbare kennis extraheren en
samenvoegen.
■■ Meta-analyses, een veel gebruikt type systematische review, houden in
dat er een kwantitatieve synthese wordt gemaakt van de ‘scores’ voor de
impact van een vergelijkbare reeks interventies uit een aantal afzonder-
lijke studies uit verschillende omgevingen. Hierbij wordt een vaste
procedure gevolgd om geschikte kennis te zoeken en te selecteren,
gewoonlijk aan de hand van een hiërarchie van methoden, waarbij
robuuste kwantitatieve (experimentele) studies hoger scoren in de
hiërarchie van informatiebronnen.
■■ ‘Narrative reviews’ zijn verslagen van interventieprocessen en/of
resultaten van een reeks interventies, waarbij wordt uitgegaan van een
gezamenlijk analytisch kader en sjabloon om gegevens uit de afzonder-
lijke studies te extraheren en de voornaamste bevindingen samen te
vatten in een narratief verslag en/of tabellen en matrices waarin
belangrijke aspecten van de interventies worden weergegeven.
■■ ‘Realist’ syntheses zijn ‘theory-driven’ en maken expliciet niet gebruik
van een hiërarchie aan methoden en designs van evaluaties. Hierbij

worden eerdere onderzoeksresultaten verzameld door de te evalueren
beleidsinstrumenten of interventies te plaatsen in de context van
andere, vergelijkbare instrumenten en worden de interventies beschre-
ven in termen van de context, sociale en gedragsmechanismen (wat
zorgt ervoor dat de interventie werkt) en uitkomsten (de ‘deliverables’).
Beter bekend als het CMO-model.
Tot zover de kern van het NONIE Guidance Document on Impact Evaluation
and Development (Leeuw & Vaessen, 2009).
Tot slot stellen we de vraag wat de kans op een succesvol gebruik van dit
‘handboek’ van NONIE is. In hoeverre draagt het bij aan betere evaluaties
en meer evidence-based ontwikkelingssamenwerking?
8.3 Kansen op succes voor robuuste impactevaluaties

Ondanks het feit dat er ‘gedoe’ is rondom methodische aspecten van
impactevaluaties op het terrein van de ontwikkelingssamenwerking,
gedoe dat niet zelden ideologisch ‘ruikt’, eindigen we optimistisch.
Ten eerste is er, in lijn met de titel van het rapport van het Center for
Global Development (‘When will we ever learn’), in brede zin een behoefte
om echt te weten wat wel, wat niet of minder en wat anders werkt. Ten
tweede staan in de wereld van ontwikkelingssamenwerking veel zaken in
het teken van ‘leren’ van ervaringen uit het verleden. Dit zien we ook in
Nederland. Debatten in de Tweede Kamer over de effectiviteit van beleid
op het terrein van ontwikkelingssamenwerking, de positie en deskundig-
heid van de Inspectie Ontwikkelingssamenwerking en Beleidsevaluatie
(IOB) van het Ministerie van Buitenlandse Zaken en specifieke IOB
evaluatierapporten laten dat goed zien (Van Gils & Leeuw, in
voorbereiding).
Ten derde stimuleert de Minister van Ontwikkelingssamenwerking,
Koenders, wat hij zelf noemt, slim effectiviteitonderzoek. Theoriegestuurd
impact onderzoek, zoals hierboven toegelicht, maakt daar een essentieel
onderdeel van uit. Ten vierde maakt de Inspectie Ontwikkelings
samenwerking en Beleidsevaluatie sinds enkele jaren een duidelijke
beweging juist naar het doen en uitbesteden van meer robuuste impacte-
valuaties, waarbij experimentele en quasi-experimentele designs niet
uitgesloten worden, maar juist opgezocht worden.
Tenslotte: internationaal is ook veel aan de gang. Zo heeft het

International Initiative for Impact Evaluation (3ie) de oprichting van een
nieuw wetenschappelijk tijdschrift (Journal of Development Effectiveness - “that
aims to support evidence-based policy making to enhance development
effectiveness”) gestimuleerd en krijgen robuuste impactevaluaties meer
en meer aandacht van multilaterale en bilaterale donoren, zoals de
Wereldbank en look-a-likes, als ook van andere institutionele spelers. Dat
mag ook wel. Immers, impactevaluaties zijn de oudste en, naar ons
oordeel, meest belangrijke vorm van evaluaties. Ze gaan terug tot een fraai
beschreven ‘experiment’ van scheepsarts Lind hoe scheurbuik in de 18e
eeuw effectief te bestrijden. Lind combineerde een voorloper van de
systematic research review-aanpak met een experiment. Methodologisch
deugde daar veel niet aan (geen informatie over randomisatie ja of neen,
zeer kleine groepen (n=2) enz.), maar hoe dan ook: een van de circa vijf
interventies werkte (dagelijks een beetje citroen- en sinaasappel drinken).
De theorie achter deze interventie (de werking van vitamine C) werd pas
decennia later ontdekt. Maar Lind legde wel een belangrijk fundament
voor beleidsrelevante impactevaluaties. Een beetje ‘back to the future’
dus, maar dan wel met volle vaart.
Literatuur
Center for Global Development, (2006) When Will We Ever Learn? Improving Lives through
Impact Evaluation, Report of the Evaluation Gap Working Group, Center for Global
Development, Washington, DC.
Gils, G.H.C. van & Frans L. Leeuw (in druk), Leren van evalueren (op de Apenrots) (werktitel);
een onderzoek naar de benutting van evaluatieonderzoek bij het Ministerie van
Buitenlandse Zaken.
Kleemans, Edward, Carolien Klein Haarhuis, Frans Leeuw en Marianne van Ooyen-Houben,
Law enforcement interventions in the Netherlands: mapping interventions and ‘browsing’
for evidence, in: Evidence & Policy, (4), 2007: 487-504.
Knaap, L.M. van der, F.L. Leeuw, S. Bogaerts en L.T.J. Nijssen (2008) “Combining Campbell
standards and the realist evaluation approach—the best of two worlds?” American Journal
of Evaluation 29(1), 48–57.
Laar, M. van & M. van Ooyen-Houben (red) (2009), Evaluatie van het Nederlandse
drugsbeleid, Trimbos Instituut & WOdC, Den Haag/Utrecht.
Leeuw,Frans & Jos Vaessen (2009), Impact Evaluations and Development, Nonie Guidance
on Impact Evaluation, Worldbank, Washington.
Leeuw, Frans L. and Leslie Cooksy, Evaluating the performance of development agencies: the
role of meta-evaluations, in: G. Keith Pitman et al (eds), Evaluating development effectiveness,
World Bank Series on Evaluation and Development, Vol 7, Transaction Publishers, Rutgers,
2004: 85-108.
Nelen, Hans. ‘Evidence maze; het doolhof van het evaluatieonderzoek’, Oratie Universiteit
Maastricht, 2008.
Ravallion (2009), Should the randomistas rule? The Berkeley Electronic Press, Economists’ Voice,
www.bepress.com/ev February, 1-5.
Sherman, L.W., D.C. Gottfredson, D.L. MacKenzie, J.E. Eck, P. Reuter, & S.D. Bushway (1997).
Preventing crime: What works, what doesn’t, what’s promising, Washington, National
Institute of Justice, US Department of Justice.
Wartna, B. (2009), In de oude fout, Dissertatie Universiteit Leiden, Leiden, Boom Juridische
Uitgeverij/WODC, Den Haag.
09
Helpen straffen.
Evidence based
policy op het terrein
van Justitie
Bouke Wartna
Senior onderzoeker, WODC
Stel dat de rechters in ons land zouden beschikken over een sanctie die
elke delinquent ervan weerhoudt ooit nog een delict te plegen. Zouden
we deze sanctie dan altijd toegepast willen zien? Natuurlijk – zou men
op het eerste gezicht zeggen, maar bij nader inzien is deze kwestie toch
wat ingewikkelder. Strafrechtelijke interventies moeten aan tal van
eisen voldoen. Op de eerste plaats moet de straf ethisch aanvaardbaar
zijn. Ze moet passen in onze eigen sociaal-culturele en juridische
kaders en overeenstemmen met de internationale verdragen die op dit
terrein geldig zijn. We willen in Nederland geen draconische maatrege-
len zoals lijfstraffen, doodstraf of levenslange opsluiting. Aan de
andere kant willen we wel dat het straffen van de dader genoegdoening
oplevert voor het slachtoffer en voor samenleving in het geheel. En er
moet een element van leedtoevoeging aankleven, al was het maar om
anderen, potentiële daders, af te schrikken. De uitvoerbaarheid van de
sancties en de kosten ervan vormen tot slot uiteraard ook nog een
overweging.
Een aanvaardbare sanctie die elke delinquent weerhoudt ooit nog een
delict te plegen bestaat niet. Dat maken de cijfers van figuur 1 snel
duidelijk. De figuur geeft de ontwikkeling te zien in de prevalentie van de
strafrechtelijke recidive van personen die tussen 1997 en 2004 in
Nederland in aanraking zijn gekomen met justitie. De cijfers zijn afkomstig
uit de Recidivemonitor, een doorlopend onderzoeksproject van het weten-
schappelijk onderzoeken documentatiecentrum (WODC) van het
Ministerie van Justitie. Het onderzoek brengt de terugval in kaart van
praktisch iedereen die wegens het plegen van een misdrijf werd vervolgd
en bestraft. De grafiek onderscheidt vier daderpopulaties: volwassen
daders, jeugdige daders, en twee groepen die daarvan een selectie
vormen, de ex-gedetineerden en de jongeren die uitstroomden uit een
justitiële jeugdinrichting. In de laatste twee groepen is de strafrechtelijke
recidive het hoogst. Daarnaast wordt duidelijk dat jongeren over het
algemeen vaker recidiveren dan volwassenen. Dat wil zeggen: personen
die op jonge leeftijd in contact komen met justitie vertonen een hoger
risico om in het systeem terug te keren dan personen die op latere leeftijd
worden vervolgd.11
De cijfers van de Recidivemonitor vormen onderdeel van de evidence base

van justitie. We weten nu, zelfs tot op decimalen achter de komma, hoe
hoog de recidive is. De cijfers zijn het kabinet al jaren een doorn in het
oog. Ze moeten omlaag, temeer omdat meer dan de helft van de geregi-
11
De figuur geeft de netto-ontwikkeling van de recidive weer. De cijfers zijn gecorrigeerd
voor verschuivingen op achtergrondkenmerken binnen de vier populaties en er is rekening
gehouden met het voorkomen van registratie-effecten.
Figuur 1 Gecorrigeerde percentages algemene recidive twee jaar na oplegging van de
straf c.q. vertrek uit de inrichting; naar jaar van oplegging/uitstroom
70
60
50
percentage recidivisten
40
30
20
10
0
1997 1998 1999 2000 2001 2002 2003 2004
ex-JJI-pupillen 60,2 57,6 58,4 57,4 57,5 53,5 56,1 54,3
ex-gedetineerden 55,1 55,7 57,3 58,9 60,1 60,6 60,4 58,6
jeugdige daders 36,1 37,2 36,5 37,1 37,5 39,4 41,1 41,6
volwassen daders 26,1 27,2 26,6 27,3 28,0 29,0 29,2 29,1
jaar van oplegging/uitstroom
streerde criminaliteit in Nederland wordt gepleegd door een recidivist. In

het beleidsprogramma Veiligheid begint bij Voorkomen (2007), uitgebracht
door het vierde kabinet Balkenende, worden de aspiraties op dit punt
geconcretiseerd. Het kabinet wil in de periode 2002-2010 de recidive onder
ex-gedetineerden en jeugdige daders met tien procentpunten verlagen.12
Een zeer ambitieuze doelstelling die een optimistisch mensbeeld verraadt
en laat zien dat men een zeker vertrouwen heeft in de elasticiteit van het
strafrechtelijke apparaat.
12
Deze doelstelling geldt voor de recidive gemeten bij een observatieperiode met een lengte
van 7 jaar. De prevalentie van de 2-jarige recidive moet met respectievelijk 7,7 en 5,8
procentpunten omlaag.
Een deel van dat vertrouwen berust op denkbeelden uit de criminologie.
In de jaren negentig van de vorige eeuw deed zich een omslag voor in het
denken over interventiestrategieën voor justitiabelen. Jarenlang heerste er
een zeker pessimisme over de mogelijkheden van het strafrecht om
delinquenten te verbeteren. Het motto gold: ‘nothing works’. Maar op een
goed moment drongen vanuit Canada en de Verenigde Staten nieuwe
geluiden door over de ‘rehabilitation of offenders’. Auteurs als Palmer
(1975), Gendreau & Ross (1979, 1987) en Andrews & Bonta (1995, 2003)
toonden met empirisch onderzoek aan dat interventies in een justitiële
setting wel degelijk succesvol kunnen zijn, mits zij zijn afgestemd op het
recidiverisico, de leerstijl en de specifieke criminogene factoren van de
betreffende dadergroep. Deze drie aspecten zijn nog steeds de basisprinci-
pes van wat wordt gezien als ‘effectieve interventies’ op het terrein van
criminal justice. Het zijn de hoekstenen van wat in de criminologie bekend is
komen te staan onder de ‘what works’-benadering, een sterk op de
uitvoeringspraktijk gerichte beweging waarin men met empirisch
onderzoek tracht na te gaan onder welke condities strafrechtelijke
interventies uitzicht bieden op preventie.
9.1 Evidence based werken in justitieland

In Nederland hebben de inzichten uit de what works-literatuur iets later
ingang gevonden, maar de laatste jaren is de what works-benadering een
belangrijk element in het beleid op het gebied van de sanctietoepassing.
Vanaf 2002 wordt, min of meer tegen de verdrukking in en met betrekke-
lijk succes, gewerkt aan de randvoorwaarden voor het uitvoeren van
‘effectieve gedragsinterventies’. Een deel van de gewenste recidivereductie
die het kabinet momenteel nastreeft, zal moeten komen van behandelpro-
gramma’s voor justitiabelen. In het kader van de operatie Terugdringen
Recidive wordt achter de schermen gewerkt aan deskundigheidsbevordering
en aan samenwerking tussen de organisaties op het justitiële speelveld. Er
zijn diagnose-instrumenten ontwikkeld bestemd voor individuele
screening en indicatiestelling. De instrumenten brengen op eenduidige
wijze het recidiverisico in kaart en maken een inventarisatie van de te
behandelen criminogene factoren. De bestaande interventies in de
penitentiaire inrichtingen en bij reclasseringsinstellingen werden door
een ambtelijke werkgroep geïnventariseerd en langs de meetlat van de
what works-principes gehouden. Geen van de interventies bleek te
voldoen aan de criteria voor effectieve programma’s. Er werden nieuwe
interventies ontworpen en er is een ‘erkenningscommissie’ in het leven
geroepen. Deze groep van onafhankelijke experts beoordeelt de plannen
die uitvoeringsorganisaties hebben om interventieprogramma’s uit te
voeren die zijn bedoeld om de recidive in de doelgroep te verlagen. Na
advies van de commissie besluit de minister van Justitie of de interventies
worden gefinancierd.
Box: 1 Kwaliteitscriteria voor interventies gericht recidivereductie
1 Theoretische onderbouwing: de gedragsinterventie is gebaseerd op een analyse van het delictgedrag en een expliciet
veranderingsmodel waarvan de werking wetenschappelijk is aangetoond.
2 Selectie van justitiabelen: het type justitiabele waarop de gedragsinterventie zich richt wordt duidelijk gespecificeerd en
geselecteerd.
3 Dynamische criminogene en protectieve factoren: de gedragsinterventie is gericht op het beïnvloeden van veranderbare
risicofactoren en op protectieve factoren die samenhangen met het criminele gedrag.
4 Effectieve (behandel)methoden: er worden (behandel)methoden toegepast die aantoonbaar effectief of veelbelovend
zijn.
5 Vaardigheden: de aanpak is mede gericht op het leren van praktische, sociale en probleemoplossende vaardigheden.
6 Fasering, intensiteit en duur: de intensiteit en duur van de gedragsinterventie sluit aan bij de problematiek van de
deelnemer.
7 Betrokkenheid en motivatie: betrokkenheid van de deelnemer bij de gedragsinterventie en motivatie voor deelname
moeten worden bevorderd en gestimuleerd.
8 Continuïteit: er moeten duidelijke verbindingen zijn tussen de gedragsinterventie en de totale begeleiding van de
justitiabele.
9 Interventie-integriteit: de gedragsinterventie wordt uitgevoerd zoals het bedoeld is.
10 Evaluatie: een doorlopende evaluatie geeft inzicht in de effectiviteit van de gedragsinterventie.
Bron: Erkenningscommissie Gedragsinterventies Justitie (2008)
De ‘Erkenningscommissie Gedragsinterventies Justitie’, zoals het forum

van deskundigen voluit heet, is de poortwachter van justitie als het gaat
om de invoering van evidence based interventies. Ze hanteert tien
kwaliteitseisen bij de beoordeling van de aanvragen. Deze zijn ontleend
aan de interventiepraktijk in Canada en Engeland waar dit soort accredita-
tiesystemen al langer bestaat. In box 1 staan ze opgesomd.
In de eisen zien we de basisprincipes van de what works-benadering terug.

Opvallend is het gebruik van de term ‘gedragsinterventies’ en de eis dat
een programma gericht moet zijn op het aanleren van vaardigheden. De
what works-beweging komt voort uit een onderzoekstraditie waarin men
uitgaat van sociaal-psychologische theorieën van crimineel gedrag.
Crimineel gedrag is aangeleerd en kan via dezelfde mechanismen worden
afgeleerd. Er zijn natuurlijk andere theorieën over het ontstaan en de
ontwikkeling van criminaliteit. De vraag is wat de commissie zal doen als
zich een aanvraag voor een ander type interventie aandient. Het kan zijn
dat vaardigheidstrainingen een bewezen werking hebben, maar dat wil
nog niet zeggen dat elke andere methode om de recidive te verlagen
ineffectief zou zijn. Om geen enkele theoretische benadering uit te
sluiten, zou het volgens mijn beter zijn om uit te gaan van ‘daderprogram-
ma’ dan van ‘gedragsinterventie’.
9.2 De eis tot evaluatie
In november 2009 vond in Utrecht een conferentie plaats over de positie
van de erkenningscommissie. Beleidsmedewerkers, veldorganisaties,
methodiekontwikkelaars en onderzoekers wisselden van gedachten en
spraken over hun ervaringen met de procedures die het werk van de
commissie omgeven. De erkenningscommissie riep die dag –bedoeld of
onbedoeld - het beeld op van een strenge, soms wat onbegrepen maar
altijd gerespecteerde schoolmeester die niet van plan is zijn normen bij
het nakijken van het huiswerk te verlichten. De uitvoeringsorganisaties
- men moet hier denken aan de reclasseringsinstellingen, penitentiaire
inrichtingen of de Raad voor de Kinderbescherming - onderschrijven de
koers die het beleid heeft ingezet, maar kreunen onder het vele werk dat
vastzit aan ‘het ontwikkelen, beschrijven, beoordelen, implementeren en
evalueren van gedragsinterventies’. Zij zoeken –en niet geheel onterecht
– hulp bij beleid, onderzoek en wetenschap.
Vooral de eis van doorlopende evaluatie, het laatste criterium op de lijst, is

een zware last voor de uitvoeringsorganisaties en levert veel stof tot
discussie op. De commissie gaat er in haar toelichting op dit punt van uit
dat de effecten van de interventie zullen worden gemeten in een onder-
zoek waarin de recidive in de experimentele groep wordt afgezet tegen de
recidive in een vergelijkbare controlegroep. Een redelijk standpunt, zo lijkt
het op het eerste gezicht, omdat de interventie bewust bedoeld is om de
recidivekans in de onderzoekspopulatie te verlagen. We willen dus weten
of de interventie daarin een causale rol heeft gespeeld.
In de praktijk levert deze eis echter problemen op. Meewerken aan

onderzoek vormt in het algemeen een extra belasting voor de projectme-
dewerkers, zij krijgen te maken met een administratieplicht waar zij niet
altijd onmiddellijk het nut van inzien. Het houden van een experiment
met willekeurige toewijzing van kandidaten aan de behandelen de
controleconditie stuit bij rechters, gevangenisdirecteuren en behandelaars
vaak op onoverkomelijke bezwaren. En nog afgezien daarvan zijn de
aantallen die nodig zijn voor een randomized controlled trial (RCT) of een
quasi-experiment13 in een klein land als Nederland niet altijd even
gemakkelijk te halen.
Bij algemene programma’s bestemd voor grote groepen justitiabelen gaat

het nog wel, maar bij gerichte interventies op een specifieke doelgroep is
het aanbod aan geschikte kandidaten soms zo gering dat men jarenlang
moet wachten voordat men een effect kan optekenen dat aan alle
statistische eisen voldoet. Bedenk daarbij dat ook het doen van recidiveon-
13
Zie de bijdrage van Frans Leeuw en Jos Vaessen in deze bundel voor een overzicht van
verschillende methoden voor effectevaluatie.
derzoek tijd vergt. Om de eventuele terugval betrouwbaar te meten, geldt
een observatieperiode van een zekere minimale duur, meestal is dat twee
jaar. Bovendien kan het recidiveonderzoek pas beginnen als de interventie
vaste grond onder de voeten heeft gekregen. Bij de implementatie van
daderprogramma’s doen zich hoe dan ook kinderziekten en aanlooppro-
blemen voor. Zolang de opzet van het programma nog belangrijke
bijstellingen ondergaat, heeft het geen zin een recidivemeting te starten.
Tegen de tijd dat de meting is afgerond, is het programma immers
gewijzigd en heeft men uitkomsten in handen van iets dat niet meer
bestaat.
De eis om via (quasi-)experimentele studies de effecten van de dader

programma’s bloot te leggen is begrijpelijk, maar de praktijk van het
onderzoek ziet er toch vaak heel anders uit. Wartna en Alberda (in
voorbereiding) inventariseerden de Nederlandse en Vlaamse evaluaties
waarin gebruik wordt gemaakt van recidivegegevens om het succes van
een strafrechtelijke interventie uit te drukken. Bij het beoordelen van het
design van de effectstudies gebruikten zij de bekende criteria van de
Maryland scientific method scale (SMS) van Sherman (1997) en later
Farrington e.a. (2002). Tabel 1 toont de resultaten.
Sinds de jaren zeventig van de vorige eeuw zijn tot in 2008 meer dan
honderd van dergelijke recidivestudies verschenen. Geen enkele evaluatie
maakte gebruik van random toewijzing (score 5). In Nederland en België
zijn, als het gaat om de evaluatie van strafrechtelijke interventies met
behulp van recidivecijfers, geen voorbeelden van RCT´s bekend. In meer
dan 40% van de gevallen ontbrak het helemaal aan een vergelijkingsgroep,
alleen de recidive in de behandelde groep werd berekend (score 2). De
scores 3 en 4 horen bij het quasi-experimentele onderzoek. Dit is onder-
zoek waarbij geen sprake is van random toewijzing maar waarbij wel wordt
gewerkt met controlegroepen. Ongeveer een kwart van de studies heeft
een SMS-score van 4. Bij studies van niveau 4 wordt een vorm van
statistische controle gebruikt om rekening te houden met instroomver-
schillen tussen deelnemers en leden van de controlegroep. In slechts
twaalf van de 102 gevallen waren de aantallen in de behandelen de
controlegroep groot genoeg voor een ‘power’ van 70% of meer. De power
is de zekerheid waarmee een bestaand verschil in de hoogte van de
recidive kan worden gevonden. Deze moet uiteraard zo hoog mogelijk
zijn, anders loopt men het gevaar dat men op basis van het onderzoek een
onjuiste conclusie trekt.
Tabel 1 Onderzoeksdesign van Nederlandse en Vlaamse evaluaties
van strafrechtelijke interventies waarbij gebruik is gemaakt
van recidivecijfers; naar jaar van publicatie
Score
Jaar SMS 2 SMS 3 SMS 4 SMS 5 Totaal
≤ 1979 5 3 6 0 14
1980-1989 3 4 2 0 9
1990-1999 23 12 11 0 46
≥ 2000 13 13 8 0 33
Totaal 44 32 27 0 102
Bron: Wartna (2009)
9.3 Slim onderzoek

Het is duidelijk is dat het evaluatieonderzoek in de lage landen wel een
kwaliteitsimpuls kan gebruiken. De Erkenningscommissie
Gedragsinterventies Justitie kan daarvoor zorgen maar dat houdt in dat ze
meer moet doen dan aandringen dat er niveau 4 en 5-studies moeten
komen. Gelet op de situatie in het land is het praktischer om ook andere
opties na te gaan bij het opstellen van een onderzoeksagenda. Onderzoek
naar de effecten van strafrechtelijke interventies bestaat uit meer dan een
recidivemeting met een goede vergelijkingsgroep en voldoende aantallen.
We willen niet alleen vaststellen òf een interventie werkt. We willen ook
weten waarom een strafrechtelijke interventie erin slaagt de recidive te
beperken en hoe dat in zijn werk gaat. Aan de fase waarin de uiteindelijke
outcome wordt gemeten, gaan daarom een plan- en een procesevaluatie
vooraf. De recidivemeting brengt de uiteindelijke uitkomsten in kaart,
maar om die te kunnen interpreteren is meer kennis nodig: over de opzet
van het programma, over de context waarin het wordt uitgevoerd, over de
realisatie van de tussenliggende behandeldoelen en over de processen en
mechanismen die met de interventie in gang worden gezet om deze
doelen te bereiken.
Het denken in termen van een ‘evaluatieketen’, een aaneenschakeling van

samenhangende onderzoeksactiviteiten, biedt de gelegenheid om een
kwalitatieve methodiek te combineren met een kwantitatieve aanpak.
Elk type onderzoek in elke fase van de evaluatie levert aanwijzingen op
over de effecten van de interventie. We hoeven niet te wachten op de
uitkomsten van een RCT om uitspraken te kunnen doen over effectiviteit.
Het doorlopen van de evaluatieketen – of zo men wil: het beklimmen van
De evaluatieketen van daderprogramma’s
Uitvoering
Ontwerp Implementatie Consolidatie
Indienen Start Vaststellen Vertrek n-ste Vertrek n-ste

plan project programma deelnemer deeln. + 2 jaar
ti t0 tpi tn trm
Rapport Rapport Voortgangsrapportages Rapport Rapport

Meting crim .
KBA ex ante KBA ex post
factoren
Reconstructie Veldstudie Inventarisatie Recidivemeting
progr.theorie diensten
output&impact outcome
Plan evaluatie Proces evaluatie Product evaluatie
College EUR 2 december 2004

Evaluatie
de ‘effectiviteitsladder’14- levert ‘voortschrijdend bewijs’ op. Naarmate het

onderzoek vordert worden de aanwijzingen van de werking van de
interventie steeds sterker als het goed is. Indien een planevaluatie uitwijst
dat een interventie goed is onderbouwd, als een procesevaluatie duidelijk
maakt dat de interventie volgens plan wordt uitgevoerd en als uit tussen-
tijdse metingen blijkt dat de gestelde behandeldoelen op overtuigende
wijze worden gehaald, dan mogen we met toenemend vertrouwen
aannemen dat het daderprogramma in zijn opzet slaagt en de recidive onder
haar deelnemers verlaagt. Mocht in de mogelijk laatste stap van de
evaluatie, de recidivemeting, alsnog blijken dat we ons daarin hebben
vergist, dan stellen we onze theorieën over effectieve interventiestrate-
gieën bij en zoeken we verder.
De Erkenningscommissie zou er goed aan doen om in haar eis van

doorlopende evaluatie rekening te houden met verschillen in het tempo
waarin de te onderzoeken interventies zich ontwikkelen. Sommige
interventies hebben langer nodig om in het stadium van de productevalu-
atie te geraken. De erkenning van een interventie zou niet afhankelijk
14
Veerman (2006) onderscheidt vier treden waarop duidelijk wordt gemaakt of interventies
effectief (kunnen) zijn.
moeten zijn van het antwoord op de vraag of men binnen vijf jaar de
resultaten van een state of the art-recidiveonderzoek kan overleggen. Veel
meer moet het gaan om de vraag hoe de evidence base die de interventie
onderstut, kan worden verstevigd met eigen onderzoek.
Met de komst van de Recidivemonitor is het niet moeilijk meer om de

terugval van de deelnemers te meten. Bovendien ligt het vergelijkingsma-
teriaal op dit punt inmiddels voor het opscheppen. De aandacht bij de
evaluatie van daderprogramma’s zou moeten uitgaan naar de tussenlig-
gende fasen van het onderzoek. Bereiken we de behandeldoelen die we
hebben gesteld? Mikken we op de juiste doelen? Bereiken we de dader-
groep die we voor ogen hebben? En: waarom denken we dat we succesvol
kunnen zijn? Als er nog veel onzekerheid bestaat rond dit type vragen, wat
hebben we dan aan de uitkomst van een vergelijkend recidiveonderzoek?
9.4 Tot slot: het bouwen van een evidence base

Gedreven door de hoge recidivecijfers is het Ministerie van Justitie een
goede weg ingeslagen. Als er een kans is om de terugval van justitiabelen
te beteugelen, moet je eerst werken aan de organisatorische randvoor-
waarden die je in de gelegenheid stellen je ambities te verwezenlijken.
Geduld is nu nodig om de what works-benadering in Nederland verder
gestalte te geven. Daarbij moeten we niet te snel denken dat wij het
vraagstuk van de effectiviteit volledig kunnen oplossen door recidiveon-
derzoek te doen. Er is behoefte aan onderzoek dat past bij de ontwikke-
lingsfase waarin de interventies zich bevinden. En verder moeten we slim
gebruik maken van de aanwijzingen die er al zijn. Accumulatie van kennis
is daarbij van wezenlijk belang. Wat wij weten van de interventies en wat er
bekend is van hun voorgangers, ‘look-a-likes’ en tegenpolen in binnen- en
buitenland, moet worden vastgelegd en toegankelijk worden gemaakt
voor iedereen die op dit veld werkzaam is.
Op verzoek van een aantal partijen, waaronder de Erkenningscommissie,

zal het WODC zich de komende tijd richten op het bijeenplaatsen van het
beschikbare bewijs. Er zal dus letterlijk een evidence base worden gebouwd.
De kennis over maatregelen ter reductie van de criminaliteit en over
straffen en maatregelen opgelegd in een justitieel kader neemt toe, maar
is verspreid en niet voor iedereen even gemakkelijk te gebruiken. In
internationaal verband houdt de Campbell Collaboration zich bezig met
‘kennistransfer’ op dit terrein. Vergelijkbare instellingen zijn de Cochrane
Library, de CRD en EPPI. In Nederland hebben het RIVM en het Nederlands
Jeugdinstituut (NJi) beide een databank over effectieve interventies in
beheer. Een platform toegespitst op justitiële interventies ontbreekt
echter. Het wordt tijd dat ook justitie over een dergelijke voorziening
beschikt. Dat kan voorkomen dat het wiel opnieuw wordt uitgevonden.
Literatuur
Andrews, D.A., & Bonta, J. (2003). The psychology of criminal conduct (3e ed.). Cincinnati, OH:
Anderson Publishing.
Andrews, D.A. (1995). The psychology of criminal conduct and effective treatment. In J.
McGuire (red.), What works. Reducing reoffending. Guidelines from research and practice (35-62).
New York: John Wiley and sons.
Erkenningscommissie (2005). Erkenningscommissie gedragsinterventies Justitie. Den Haag:
Farrington, D.P., Gottfredson, D.C., Sherman, L.W., & Welsh, B.C. (2002). The Maryland
Scientific Methods Scale. In L.W. Sherman, D.P. Farrington, B.C. Welsh & D.L. MacKenzie (red.),
Evidence-based crime prevention (13-21). Londen: Routledge.
Gendreau, P., & Ross, R.R. (1979). Effective correctional treatment. Bibliotherapy for cynics. Crime
and Delinquency, 25, 463-489.
Gendreau, P., & Ross, R.R. (1987). Revivification of rehabilitation: Evidence from the 1980s.
Justice Quarterly, 4, 349-407.
Ministerie van Justitie. VbbV (2007). Veiligheid begint bij Voorkomen: Voortbouwen aan een
veiliger samenleving. Den Haag: Ministerie van Justitie/Ministerie van Binnenlandse Zaken en
Koninkrijksrelaties.
Palmer, T. (1975). Martinson revisited. Journal of Research in Crime and Delinquency, 12(2),
133-152.
Sherman, L.W. (1997) Thinking about crime. In L.W. Sherman, D.C. Gottfredson, D.L. MacKenzie,
J. Eck, P. Reuter & S.D. Bushway (red.), Preventing crime: What works, what doesn´t, what´s
promising. Washington, DC: National Institute of Justice, US Department of Justice.
Veerman, J.W. (2006). Meer zicht op effectieve jeugdzorginterventies via praktijkgestuurd
effectonderzoek. Kind en Adolescent, 27(4), 245-248.
Wartna, B.S.J. (2009) In de oude fout. Over het meten van recidive en het vaststellen van het succes van
strafrechtelijke interventies. Den Haag, Boom Juridische uitgevers.

Bewezen Beleid in Het Onderwijs

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bewezen Beleid in Het Onderwijs

Uploaded by

Copyright:

Available Formats

Essaybundel

02 Experimentele designs in 26

03 Kwalitatieve methoden in 40

04 Leren over leren 50

05 Naar een nieuwe opzet van de 64

06 Onderwijs op de ladder: maatwerk 84

07 De bijdrage van internationaal

08 Evidence based policy in

09 Helpen straffen. Evidence based policy 128

Het ministerie van OCW hecht aan de wetenschappelijke onderbouwing

Aan de ene kant staan de aanhangers van streng (‘rigorous’) effectiviteits-

Het uitgangspunt van die “gouden standaard” is echter omstreden. Tegen

laten sturen door wetenschappelijk onderzoek;

onderzoek niet het type kennis oplevert waardoor de bewijskracht van

onderzoek is voor scholen niet te organiseren, de urgentie van beleid

Deze bezwaren duiden op een diep verankerde weerstand tegen experi-

De derde uitweg is die van het combineren. Om de effecten van een

In deze bundel laten auteurs vanuit diverse invalshoeken hun licht

Ik ben de auteurs zeer erkentelijk voor hun bereidheid om aan het

Inmiddels weten we, vele publicaties verder, dat de problemen fundamen-

Hoewel er dus fundamentele problemen zijn aan te wijzen die mogelijk

Een niet te onderschatten negatieve factor in de valorisatie van onder-

Illustratief in deze is de heftige discussie die publiekelijk, tot in het

1.2 Historie van de kennisketen in het onderwijs

1.2.1 De adviesstructuur in basis- en voorgezet onderwijs

Ten gevolge van een volledige subsidiëring door de rijksoverheid waren

De adviescentra voor het basisonderwijs zijn vaak relatief klein van

In de inleiding van het genoemde document (p.3) wordt opgemerkt dat

1.2.2 Curriculum- en toetsontwikkeling

In 1968 kwamen daarom een landelijk centrum voor toetsontwikkeling

Nieuwe statuten traden in werking in 1982, waarbij de oorspronkelijke

In 1987 werd de Wet op de onderwijsverzorging (WOV) ingevoerd, de eerste

SVO volgde een vaste procedure om onderzoeksprogramma’s te ontwik-

In 1983 werden zo probleemverkenningen uitgevoerd op de terreinen;

■■ voorgezet onderwijs eerste fase

■■ voortgezet onderwijs tweede fase

■■ etnische minderheden in het onderwijs

■■ overgang van school naar werk

■■ gebruik van computers in de school

In 1984 werden toegevoegd;

In 1986 kwam daarbij;

Na vaststelling van het onderzoekprogramma nodigde SVO de aan haar

Behalve het reguleren van onderzoeksprojecten zoals hierboven omschre-

Topambtenaren spraken over SVO als het ‘instituut voor hetelucht­

Er is een tendens dat steeds meer onderzoek gericht op cruciale aspecten

1.3 Het gebruik van wetenschappelijke kennis door het

De aansturing van het evaluatieprogramma is gedurende de looptijd vrij

Het was de bedoeling dat de evaluatie bruikbare wetenschappelijke kennis

De pogingen om de opbrengsten van het evaluatieprogramma indringend

Belangrijke voorbeelden zijn;

toetsen ‘not done’ in de scholen, het evaluatieprogramma realiseerde

door het ministerie van WVC (nu VWS) in 1987.

faciliteiten effectiever werden toegekend.

heidsbeleid. Tot 1986 gebeurde dit in nogal vage en niet te operationali-

Sommige politiek-verantwoordelijke bewindslieden gaven expliciet te

Aan het eind van de evaluatie zijn twee retrospectieve publicaties

Deze resultaten geven niet het definitieve antwoord op de vraag of de

1.3.2 Beleid met betrekking tot de groepsgrootte in het basisonderwijs

De onderzoeksresultaten met betrekking tot de groepsgrootte waren tot

Discussies over groepsgrootte steken periodiek de kop op. Zo ook in 1995.

Gegeven de vrijheid van scholen om formatie in te zetten naar eigen

In een persbericht van het ministerie van Onderwijs laat staatssecretaris

Van het oorspronkelijke advies is derhalve aanzienlijk afgeweken en ook

06 Onderwijs op de ladder: maatwerk 84

09 Helpen straffen. Evidence based policy 128

Topambtenaren spraken over SVO als het ‘instituut voor hetelucht

1.3 Het gebruik van wetenschappelijke kennis door het

2.5 Problemen met het experiment in onderwijsonderzoek

4.4 Wat is nodig om van experimenteel onderzoek een

5.2 De kloof tussen onderzoek en praktijk: evidence based