Statistische Power: De Grootste Misvatting in Data-analyse

·
Luister naar dit artikel~5 min
Statistische Power: De Grootste Misvatting in Data-analyse

Statistische power is het meest misbegrepen concept in data-analyse. Twee tegenstrijdige visies over de interpretatie van power bij significante resultaten. Welke is correct voor professionals in realtime website-statistieken?

De burgemeester van New York bood €27 per uur aan om te helpen met het scheppen van de ongeveer 76 centimeter sneeuw die afgelopen zondag en maandag was gevallen. Van wat ik hoor, was het een heel effectief programma. Hier is een klein statistisch raadsel om je doorheen te werken. Stel je voor: je leest over een resultaat x dat net statistisch significant is op niveau α (dus P-waarde = α) in een eenzijdige toets T+ voor het gemiddelde van een normale verdeling. We hebben n onafhankelijke steekproeven en (voor de eenvoud) een bekende σ. De hypothesen zijn H₀: µ ≤ 0 tegen H₁: µ > 0. Ik hoor sommige mensen zeggen: ### De Twee Tegengestelde Visies **Visie A:** Als de power van de toets om alternatief µ' te detecteren erg laag is, dan is het net significante x slecht bewijs voor een afwijking (van de nulhypothese) die overeenkomt met µ'. Oftewel: er is slecht bewijs dat µ > µ'. Deze mensen vinden meestal ook dat als POW(µ') redelijk hoog is (minstens 0,5), de conclusie dat µ > µ' gerechtvaardigd is, of op zijn minst niet problematisch. **Visie B:** Als de power van de toets om alternatief µ' te detecteren erg laag is, dan is het net significante x *goed* bewijs voor een afwijking die overeenkomt met µ'. Er is dan goed bewijs dat µ > µ'. Zij vinden meestal dat als POW(µ') redelijk hoog is, de conclusie dat µ > µ' *niet* gerechtvaardigd is. ### Welke Visie is Juist? Wat is correct, vanuit het perspectief van de foutstatistische filosofie waarbinnen power en bijbehorende toetsen zijn gedefinieerd? Dat is de kernvraag. Laat ik dit duidelijk zeggen: het meest misbegrepen en misbruikte (of ongebruikte) concept uit de frequentistische statistiek is de power van een toets. Ik schrijf expres POW(µ') op deze correcte manier, omdat het fout is om over de power van een toets te spreken zonder te specificeren tegen welk alternatief je hem berekent. - Power is geen losstaand getal - Het is een functie van het gespeculeerde alternatief - Het berekenen voor meerdere alternatieven is juist wat je wilt doen > "Als je de ware parameterwaarde al kende, waarom zou je dan een onderzoek uitvoeren om er statistische conclusies over te trekken?" ### Waar Gaat Het Werkelijk Om? Houd in gedachten dat conclusies meestal de vorm hebben van µ > µ' = µ₀ + δ, of µ < µ' = µ₀ + δ. Het gaat niet om puntwaarden! Zelfs niet om het punt µ = M₀. Simpel gezegd kun je de conclusie beschouwen in termen van de eenzijdige ondergrens van het betrouwbaarheidsinterval – het duale concept voor toets T+. ### Een Praktisch Rekenvoorbeeld Laten we σ = 10 nemen, n = 100, dus (σ/√n) = 1. Toets T+ verwerpt H₀ op het 0,025 niveau als M > 1,96. Voor de eenvoud laten we de grenswaarde M* op 2. Toets T+ verwerpt H₀ op ongeveer het 0,025 niveau als M > 2. **Geval 1:** We hebben een µ' nodig zodat POW(µ') laag is. Dit is waar het interessant wordt. Een lage power betekent dat je test niet goed is in het detecteren van dat specifieke alternatief. Maar wat zegt dat over je gevonden significante resultaat? Het antwoord ligt in het begrijpen dat power iets zegt over de gevoeligheid van je test *voordat* je data verzamelt. Het zegt niet direct iets over de sterkte van het bewijs *nadat* je een significant resultaat hebt gevonden. ### De Essentiële Les voor Professionals Als je met realtime website-statistieken werkt, kom je dit soort vragen constant tegen. Is die stijging in conversie 'echt'? Is dat verschil in bouncepercentage betekenisvol? Het begrijpen van power helpt je betere onderzoeksvragen te stellen en realistische verwachtingen te hebben over wat je data wel en niet kan laten zien. Het grootste gevaar? Mensen die power verkeerd interpreteren en daardoor óf te voorzichtig worden (en echte effecten missen) óf te overmoedig (en ruis aanzien voor signaal). Dus, terug naar onze oorspronkelijke vraag: wie heeft gelijk, groep A of groep B? Het antwoord is genuanceerder dan beide groepen denken. De waarheid ligt in het begrijpen dat power een eigenschap van de test is, niet van het specifieke resultaat. Een significant resultaat met lage power voor een groot alternatief kan juist suggereren dat het werkelijke effect groter is dan dat alternatief – precies het tegenovergestelde van wat intuïtief lijkt. Dat is de paradox van statistical power. En dat is waarom zoveel professionals er moeite mee hebben. Maar als je het eenmaal doorhebt, kijk je voor altijd anders naar je data.