4  Interpreteren van Betrouwbaarheidsintervallen

Keywords

samenwerken, betrouwbaarheidsinterval, effect size, open onderwijsbron, open studiebeurs, open wetenschap

Wat is de juiste interpretatie van een betrouwbaarheidsinterval? Stel je voor dat je een onderzoek hebt uitgevoerd waarbij je twee groepen hebt vergeleken. Je hebt een Cohen’s \(d\) = 0,3, 95% CI [0,2, 0,4]. Hoe interpreteer je dit betrouwbaarheidsinterval?

Betrouwbaarheidsintervallen worden verkregen door een bepaalde procedure, zodanig dat wanneer de procedure herhaaldelijk wordt toegepast op een reeks hypothetische datasets uit de bestudeerde populatie(s), deze intervallen oplevert die in 95% van de gevallen de werkelijke parameterwaarde bevatten (in ons voorbeeld betekent dit het werkelijke verschil tussen de twee groepen). Opdat de effectschatting en de betrouwbaarheidsintervallen geldig zouden zijn, moeten de gegevens en de test voldoen aan de veronderstellingen van de schattingsprocedure.

In gewone bewoordingen: als we dit onderzoek keer op keer uitvoeren (dezelfde steekproefprocedure herhalen, dezelfde experimentele manipulatie toepassen, dezelfde statistische analyse uitvoeren, enzovoort), zullen we vanwege de steekproefvariabiliteit (onze steekproeven zijn elke keer iets anders) verschillende Cohen’s \(d\) waarden krijgen. Voor elk van deze \(d\) waarden berekenen we een 95% interval. Vervolgens verwachten we dat 95% van al deze intervallen de ware \(d\) zal bevatten, die we nooit precies weten.

Er is ook een veelgehoorde kritiek op de interpretatie van het betrouwbaarheidsinterval: “Er is 95% kans dat de ware parameter binnen het 95% betrouwbaarheidsinterval ligt”. Deze kritiek is echter ongegrond in het specifieke geval van een enkelvoudig waargenomen betrouwbaarheidsinterval, dat wil zeggen, zolang er een enkelvoudig gerealiseerd betrouwbaarheidsinterval uit de populatie is bemonsterd, is deze interpretatie in orde (Vos and Holbert 2022). Het is echter belangrijk om op te merken dat deze interpretatie onjuist is als er meerdere gerealiseerde betrouwbaarheidsintervallen zijn die willekeurig zijn gekozen uit dezelfde populatie. De bekritiseerde interpretatie is meestal ook praktischer dan de interpretatie waarbij gebruik wordt gemaakt van herhaalde steekproeven, het volgende voorbeeld beschreven door Vos and Holbert (2022) illustreert dit,

Het onderscheid tussen deze interpretaties kan worden begrepen aan de hand van het eenvoudige voorbeeld van de waarschijnlijkheid dat je een ‘6’ gooit met een eerlijke dobbelsteen. De waarschijnlijkheid is 1/6 omdat als je herhaaldelijk met de dobbelsteen gooit, het aantal keren dat er een ‘6’ op komt heel dicht bij 1/6 zal liggen. Of, de kans is 1/6 omdat het gelijk is aan een willekeurige selectie uit een urn waarbij precies één van de 6 balletjes gelabeld is met ‘6’. Het onderscheid in dit eenvoudige voorbeeld is minder nuttig omdat het herhaaldelijk gooien van een dobbelsteen minder problematisch is dan het herhaaldelijk uitvoeren van dezelfde gerandomiseerde proef.

Om verder te lezen over interpretaties van betrouwbaarheidsintervallen, zie Hoekstra et al. (2014) en Morey et al. (2016).