Statistische Power: Hoe je niet-significante resultaten écht interpreteert

·
Luister naar dit artikel~5 min
Statistische Power: Hoe je niet-significante resultaten écht interpreteert

Een niet-significant testresultaat betekent niet automatisch 'geen effect'. De interpretatie hangt af van de statistische power. Leer hoe je power analysis correct toepast om valse conclusies te voorkomen.

Als je werkt met realtime website statistieken, ken je het gevoel vast wel. Je voert een test uit, de resultaten zijn niet significant, en dan? Trek je meteen de conclusie dat er niets aan de hand is? Dat zou weleens een gevaarlijke denkfout kunnen zijn. Laten we het hebben over statistische power – een concept dat vaak verkeerd wordt begrepen, maar cruciaal is voor een goede analyse. Het idee van de power van een test komt uit het vroege werk van Neyman-Pearson. Eigenlijk is het vooral een pre-data concept. Je gebruikt het om van tevoren een goede test op te zetten, bijvoorbeeld om de juiste steekproefgrootte te bepalen. Maar in sommige papers noemt Neyman een derde doel: het interpreteren van testresultaten nádat de data binnen zijn. Dat noemen we vaak 'power analysis'. Het gaat erom te bepalen welke afwijking van de nulhypothese je nog kunt uitsluiten, juist bij niet-significante resultaten. ### De verrassende dialoog tussen Neyman en Carnap In een paper uit 1955, 'The Problem of Inductive Inference', gaat Neyman hier dieper op in. Het is een verrassende titel voor een behaviorist als hij. Hij gaat in gesprek met de filosoof Rudolf Carnap over diens term 'degree of confirmation'. Stel, een test verwerpt de nulhypothese niet. Betekent dat dan dat de data de hypothese bevestigen? Neyman zegt: absoluut niet. Het antwoord hangt af van de power. > 'De kans om een afwijking van de nulhypothese op te sporen, wanneer je maar weinig observaties hebt, is extreem klein, zelfs als die afwijking er wél is. Daarom kan het niet verwerpen van H0 niet redelijkerwijs worden gezien als een bevestiging van H0.' – Neyman (1955) Met andere woorden: als je test weinig power heeft, zegt een niet-significant resultaat bijna niets. Je had de afwijking toch niet kunnen vinden. Pas als de power hoog is – bijvoorbeeld boven de 0.95 – geeft een niet-significant resultaat meer zekerheid dat er echt geen groot effect is. ### Waarom intuïtie ons hier in de steek laat De algemene conclusie is helder. Het is een beetje roekeloos om je vertrouwen in een hypothese te baseren op het feit dat een test hem niet verwerpt. Een voorzichtiger houding is om eerst naar de powerfunctie van de gebruikte test te kijken. Neyman geeft een concreet voorbeeld: een eenzijdige toets voor het gemiddelde van een normale verdeling. - **H0:** µ ≤ µ0 - **H1:** µ > µ0 De toetsingsgrootheid is de gestandaardiseerde steekproefgemiddelde. De regel: je concludeert een afwijking alleen als de waarde groter is dan een kritieke grens cα. In Carnaps voorbeeld was de test niet significant. Maar het probleem is dat de kans om een afwijking δ op te sporen met zo weinig observaties extreem klein was. ### Van power naar severity: een nuance De power van de test T+ om afwijking δ op te sporen is: P(d(X) > cα; µ = µ0 + δ). Interessant is dat Neyman hier minder behavioristisch klinkt dan gewoonlijk – hij lijkt meer op een power-analist zoals Cohen. Maar er zit een addertje onder het gras. In standaard power analysis bereken je power ten opzichte van een resultaat dat nét de cutoff mist. Dat is het worst-case scenario van een negatief resultaat. Wat als je werkelijke uitkomst een nog grotere p-waarde geeft? Een nog 'negatiever' resultaat? Dat zou moeten meewegen in je interpretatie. Het is informatiever om te kijken naar de kans op een slechtere fit met de nulhypothese dan je daadwerkelijk vond: P(d(X) > d(x0); µ = µ0 + δ). Dit geeft een maat voor de 'severity' – de mate van corroboratie of weerbaarheid van de conclusie. ### Praktische tips voor jouw analyse Dus, wat moet je onthouden voor je dagelijkse werk met A/B-tests of conversie-optimalisatie? - **Denk vooraf na over power.** Bepaal de benodigde steekproefgrootte om een relevant effect te kunnen detecteren. Anders verspil je tijd en resources. - **Interpreteer 'geen effect' met grote voorzichtigheid.** Vraag je altijd af: had mijn test een effect überhaupt kunnen vinden? Zo nee, dan is je niet-significante resultaat betekenisloos. - **Kijk verder dan de p-waarde.** Overweeg de 'severity' benadering. Hoe sterk spreekt je data tegen een specifieke afwijking? Dat geeft een veel rijker beeld. Het is een vak apart, statistiek. Maar door power en severity goed te begrijpen, voorkom je dat je valse zekerheden creëert. Je analyses worden robuuster en je conclusies betrouwbaarder. En dat is precies wat je nodig hebt in de snelle wereld van realtime data.