2  Referentiepunten

Keywords

samenwerken, betrouwbaarheidsinterval, effect size, open onderwijsbron, open studiebeurs, open wetenschap

Wat een effect size “groot” of “klein” maakt, is volledig afhankelijk van de context van het onderzoek in kwestie. Het kan echter nuttig zijn om een aantal losse criteria te hebben om onderzoekers te begeleiden bij het effectief communiceren van schattingen van effect sizes. Jacob Cohen (1988), de pionier op het gebied van schattingsstatistiek, stelde veel conventionele richtlijnen voor (d.w.z. hoe we naar een effectgrootte verwijzen anders dan door een getal te gebruiken) die we momenteel gebruiken. Cohen (1988) merkte echter op dat labels zoals “klein”, “gemiddeld” en “groot” relatief zijn en dat bij het verwijzen naar de grootte van een effect, het vakgebied, de context van het onderzoek en de onderzoeksmethode en -doelen voorrang moeten krijgen boven richtlijnen wanneer dat mogelijk is. Er zijn algemene verschillen in effect sizes tussen verschillende disciplines en binnen elke discipline verschillen effect sizes afhankelijk van onderzoeksdesigns en onderzoeksmethoden (Schäfer and Schwarz 2019) en doelen; zoals Glass, McGaw, and Smith (1981) uitlegt:

Afhankelijk van welke voordelen behaald kunnen worden tegen welke kosten, kan een effectgrootte van 2,0 “slecht” zijn en een van .1 “goed”.

Daarom is het cruciaal om te erkennen dat richtlijnen slechts algemene richtlijnen zijn, en, wat belangrijk is, buiten hun context. Ze hebben ook de neiging om controverses uit te lokken (Glass, McGaw, and Smith 1981; Kelley and Preacher 2012; Harrell 2020). Merk op dat onderzoekers veldspecifieke empirische richtlijnen hebben voorgesteld. Voor sociale psychologie zijn deze alternatieve maatstaven, verkregen door meta-analyse van de literatuur (bijvoorbeeld deze en deze; zie deze Twitter/X thread voor een samenvatting), meestal kleiner dan wat Cohen naar voren bracht. Hoewel dergelijke veldspecifieke effect sizeverdelingen een overzicht kunnen geven van de waargenomen effectgroottes, geeft het geen goede interpretatie van de grootte van het effect (zie Panzarella, Beribisky, and Cribbie 2021). Om de grootte van het effect te onderzoeken, moet rekening worden gehouden met de specifieke context van het betreffende onderzoek (pp. 532-535, Cohen 1988). Zie de onderstaande tabel:

Effect Size Referentie Klein Medium Groot
Gemiddelde Verschillen
Cohen’s \(d\) of Hedges’ \(g\) Cohen (1988)1 0.20 0.50 0.80
0.18 0.37 0.60
Lovakov and Agadullina (2021)2 0.15 0.36 0.65
Correlationeel
Correlatie Coefficient (\(r\)) Cohen (1988) .10 .30 .50
Richard, Bond Jr., and Stokes-Zoota (2003)34 .10 .20 .30
Lovakov and Agadullina (2021) .12 .24 .41
Paterson et al. (2016) .12 .20 .31
Bosco et al. (2015) .09 .18 .26
Cohen’s \(f^2\) .02 .25 .40
eta-squared (\(\eta^2\)) Cohen (1988) .01 .06 .14
Cohen’s f Cohen (1988) .10 .25 .40
Categoriaal
Cohen’s \(w\) Cohen (1988) 0.10 0.30 0.50
Phi Cohen (1988) .10 .30 .50
Cramer’s \(V\) 5
Cohen’s \(h\) Cohen (1988) 0.2 0.5 0.8

Opgemerkt moet worden dat kleine/middelgrote/grote effecten niet noodzakelijkerwijs betekenen dat ze kleine/middelgrote/grote praktische implicaties hebben (zie voor details Coe 2012; Pogrow 2019). Deze richtlijnen zijn relevanter om onze verwachtingen te sturen. Of ze praktisch belang hebben, hangt af van de context. Om het praktische belang te beoordelen, zal het altijd wenselijk zijn dat gestandaardiseerde effectgroottes worden vertaald naar toename/afname in ruwe eenheden (of elke andere betekenisvolle eenheid) of een Binomiale Effectgrootte Weergave (ruwweg, verschillen in proporties zoals slagingspercentage voor en na interventie). Het rapporteren van niet-gestandaardiseerde effectgroottes is niet alleen goed voor de interpretatie, maar ze zijn ook robuuster en eenvoudiger te berekenen (baguley2009gestandaardiseerd?). Daarnaast is een nuttig hulpmiddel om bijvoorbeeld de grootte van een Cohen’s d te onderzoeken door te kijken naar U3, percentage overlap, waarschijnlijkheid van superioriteit en aantallen die nodig zijn om te behandelen (Voor mooie visualisaties zie https://rpsychologist.com/cohend/, Magnusson 2023).

Om het praktische belang van waargenomen effect sizes verder te beoordelen, moet de kleinste effectgrootte van belang voor elk specifiek gebied worden vastgesteld (SESOI, Lakens, Scheel, and Isager 2018). Cohen’s richtlijnen, veldspecifieke richtlijnen of gepubliceerde bevindingen hebben niet de voorkeur om de SESOI vast te stellen omdat ze geen informatie geven over de praktische relevantie/omvang van een effect size (Panzarella, Beribisky, and Cribbie 2021). Recente ontwikkelingen in verschillende onderzoeksgebieden in de psychologie zijn genomen om de SESOI vast te stellen door middel van anker-gebaseerde methoden (Anvari and Lakens 2021), consensus-methoden (Riesthuis et al. 2022) en kosten-batenanalyses (zie Otgaar et al. 2022, 2023). Deze benaderingen worden vaak met succes toegepast in medisch onderzoek (bijv. HEIJDE et al. 2001) en aanbevelingen zijn om, idealiter, de verschillende methoden tegelijkertijd toe te passen om een nauwkeurige schatting van de kleinste effect sizes van belang te verkrijgen (in de medische literatuur minimaal klinisch belangrijk verschil genoemd, Bonini et al. 2020). Interessant is dat het minimaal klinisch belangrijke verschil (MCID, kleinste effect dat patiënten als gunstig [of schadelijk] ervaren, McGlothlin and Lewis 2014) soms zelfs als een lage lat wordt beschouwd en dat andere maten worden aangemoedigd, zoals de patiënt acceptabele symptomatische toestand (PASS, niveau van symptomen dat een patiënt toelaat terwijl hij nog steeds zijn symptoomtoestand accepteert, dit kan worden gebruikt om te onderzoeken of een bepaalde behandeling leidt tot een toestand die patiënten als acceptabel beschouwen Daste et al. 2022), substantieel klinisch voordeel (SCB, effect dat ertoe leidt dat de patiënt zelf significante verbeteringen rapporteert, Wellington et al. 2023) en maximale resultaatverbetering (MOI, vergelijkbaar met MCID, PASS en SCB, behalve dat de scores worden genormaliseerd door de maximaal mogelijke verbetering voor elke patiënt, Beck et al. 2020; rossi2023minimaal?)..

Houd er ook rekening mee dat alleen nul betekent dat er geen effect is. Een effect van de grootte .01 is een effect, maar een heel klein (Sawilowsky 2009) en waarschijnlijk onbelangrijk effect. Het is zinvol om te zeggen dat “we geen bewijs hebben gevonden om de nulhypothese te verwerpen”, of “we slechts bewijs hebben gevonden voor een klein/weinig/zwak-niet effect” of “we geen zinvol effect hebben gevonden”. Het heeft geen zin om te zeggen “we hebben geen effect gevonden.” Puur door de willekeurige aard van ons universum is het moeilijk voor te stellen dat we een scherp nul-effect resultaat kunnen krijgen. Dit is ook gerelateerd aan de crud factor, die verwijst naar het idee dat “alles correleert met al het andere” (Orben and Lakens 2020, 1; Meehl 1984), maar de praktische implicatie van zeer zwakke/kleine correlaties tussen sommige variabelen kan beperkt zijn en of het effect betrouwbaar gedetecteerd wordt hangt af van statistische power.


  1. Sawilowsky (2009) bereidde Cohen’s richtlijnen om hele kleine effecten te omvatten (\(d\) = 0.01), hele grote effecten (\(d\) = 1.20), en enorme effecten (\(d\) = 2.0). Opgemerkt moet worden dat zeer grote en enorme effecten zeer zeldzaam zijn in de experimentele sociale psychologie.↩︎

  2. Volgens deze recente meta-analyse van effect sizes in sociale psychologiestudies “wordt aanbevolen om correlatiecoëfficiënten van .1, .25 en .40 en Hedges’ \(g\) (of Cohen’s \(d\)) van 0,15, 0,40 en 0,70 te interpreteren als kleine, middelgrote en grote effecten voor studies in de sociale psychologie.↩︎

  3. Let op, voor gepaarde steekproeven verwijst dit niet naar de waarschijnlijkheid van een toename/afname in gepaarde steekproeven, maar eerder naar de waarschijnlijkheid van een willekeurig gekozen waarde van X. Dit wordt in de literatuur ook wel het “relatieve” effect genoemd. Daarom zullen de resultaten verschillen van de concordantiekans die hieronder wordt gegeven.↩︎

  4. Deze richtlijn wordt ook aanbevolen door Gignac and Szodorai (2016). Funder and Ozer (2019) heeft ze uitgebreid met zeer kleine effecten (\(r\) = .05) en zeer grote effecten (\(r\) = .40 of groter). Volgens hen geeft een effectgrootte \(r\) van .05 een effect aan dat zeer klein is voor de verklaring van enkelvoudige gebeurtenissen maar potentieel op de niet al te lange termijn gevolgen kan hebben, geeft een effectgrootte r van .10 een effect aan dat nog steeds klein is op het niveau van enkelvoudige gebeurtenissen maar potentieel op de lange termijn meer gevolgen kan hebben, geeft een effectgrootte \(r\) van . 20 duidt op een middelgroot effect dat zelfs op de korte termijn enig verklarend en praktisch nut heeft en daarom nog belangrijker is, en een effectgrootte \(r\) van .30 duidt op een groot effect dat potentieel krachtig is op zowel de korte als de lange termijn. Een zeer grote effectgrootte (r = .40 of groter) in de context van psychologisch onderzoek is waarschijnlijk een grove overschatting die zelden zal worden gevonden in een grote steekproef of in een replicatie.” Maar zie hier voor controverses met dit paper.↩︎

  5. De richtlijn voor Cramer’s V zijn afhankelijk van de grootte van de contingentietabel waarop het effect wordt berekend. Gebruik volgens Cohen richtlijn voor de phi-coëfficiënt gedeeld door de vierkantswortel van de kleinste dimensie min 1. Bijvoorbeeld, een gemiddeld effect voor een Cramer’s V van een 4 bij 3 tabel zou .3 / sqrt(3 - 1) = .21 zijn.↩︎