Kans op toeval is onzin

De p-waarde uitgelegd
01-07-2021

-

door verscheen in :
18 minuten
Leestijd:
In korte uitleg over wat de zogeheten p-waarde is, ziet men vaak de frase ‘kans dat het toeval is’ opduiken. Dat is een vrijwel zekere indicatie dat de auteur er niets van begrepen heeft.

In een recente aflevering van Wonder en is gheen Wonder kwam ik een dergelijke frase weer tegen, maar als je oplet zie je het zo vaak opduiken in popularisatie van wetenschap en zelfs in wetenschappelijke geschriften dat ik me afvraag of er wel één medische of fysische onderzoeker is die het wel weet.

Eerst maar toeval. Als je dobbelt, is het aantal punten dat je gooit zonneklaar. Na het vallen van de dobbelsteen ligt bijvoorbeeld een zes boven. Er is geen twijfel mogelijk dat er een zes gegooid is. Gooi je echter vaak met dezelfde dobbelsteen, dan zullen alle zes puntenaantallen ongeveer even vaak boven komen. We zeggen dat de kans op een bepaald puntenaantal 1/6 is. De reden is dat de dobbelsteen symmetrisch is. Het ontstaan van de kanstheorie valt dan ook ongeveer samen met het in zwang raken van nette symmetrische dobbelstenen.

Met een munt is de uitslag kop of munt. Na het vallen van de munt is het duidelijk wat de uitslag is. Als de munt mooi symmetrisch is (dus de afgebeelde ‘kop’ is niet bijzonder dik) zullen op den duur de beide uitslagen even vaak voorkomen. De kans op kop is dus 0,5, namelijk aantal keren kop gedeeld door totaal aantal worpen bij een groot aantal worpen.

Als de munt een geringe afwijking heeft en de fifty/fifty verhouding niet helemaal klopt, kan men dat vaststellen. Als we de munt tienduizend maal gooien, zal dat natuurlijk niet exact 5000 maal kop opleveren. Het kan best 50 meer of minder zijn. Enig rekenwerk levert de voorspelling: als de munt eerlijk is, dan zal de proef ‘tienduizendmaal werpen’ in ongeveer twee derde van de gevallen binnen die marge van 50 meer of minder dan de ‘verwachte’ 5000 kop blijven. Die marge heet de standaardafwijking. Dat is een vakterm uit de theorie van kansen en statistiek. Een afwijking van meer dan het dubbele van de standaardafwijking (100 in dit geval) zal slechts 1 op de twintig maal voorkomen.

Als je van plan was op die manier je munt op eerlijkheid te testen, en je krijgt 6000 maal kop dan ligt het voor de hand dat die munt niet eerlijk is of dat je stelselmatig de uitslagen verkeerd noteert of niet goed gegooid hebt of misschien de uitkomst verzonnen is. Als je de moeite doet de munt goed te bekijken, zul je misschien kunnen zien dat hij niet helemaal symmetrisch is.

Maar wat als je 5100 maal kop vindt? Gesteld dat de munt volkomen eerlijk is, dan is de kans op minstens zo’n grote afwijking naar boven of naar beneden ongeveer 1/20. Dat is ongeveer dezelfde kans als drie punten gooien met twee dobbelstenen – bepaald geen schokkende gebeurtenis. De verleiding is groot om te denken dat als je zegt ‘deze munt is niet goed’, je een kans hebt van 1/20 dat je fout zit. Maar de enige correcte bewering is ‘áls deze munt wel goed is, dan leert een berekening dat de kans op de zojuist gevonden uitslag gelijk is aan 1/20’. Wanneer je van die voorwaarde af wilt, moet je je uitspreken over de kans dat de munt in kwestie niet exact even dik is aan beide zijden. Daar weet je echter niets van.

Vazen, kaarten en regen in Antwerpen

Naast dobbelstenen en munten dienen ook vazen met witte en zwarte (of rode) ballen als voorbeeld. Als daar blind een bal uit getrokken wordt, is de kleur van de getrokken bal volkomen duidelijk. Als gezorgd wordt dat de ballen goed gemengd worden, en de vaas 5 rode en 10 witte ballen bevat, is de kans om een rode bal te trekken 1/3. Dat volgt uit de symmetrie van de situatie: alle ballen zijn volstrekt gelijk op de kleur na, en het proces van ballen in de vaas stoppen en daarna mengen zal niet een bepaalde kleur bevoordelen.

Voor speelkaarten geldt iets dergelijks. Een pak kaarten moet goed geschud worden. Onderzoekingen hebben uitgewezen dat na zeven keer grondig schudden er geen spoor meer over is van een eventuele oorspronkelijke ordening.

Er zijn allerlei processen die lijken op het gooien van een munt of het trekken van ballen uit vazen: de uitslag is volkomen duidelijk, maar slechts gedeeltelijk voorspelbaar. Van een bepaald type uitslag kunnen we vaak wel zeggen in welk percentage van de gevallen die zich voordoet, met andere woorden, we kunnen zinvol spreken over de kans dat een bepaald type geval zich voordoet.

We kunnen spreken over de kans dat het op een julidag regent in Antwerpen, de kans dat een boreling een jongetje of een meisje is, de kans een bepaalde ziekte op te lopen of de kans dat een bepaalde kandidaat de verkiezingen wint. Regen in Antwerpen, het geslacht van een kind, de aanwezigheid van ziekte en wie de verkiezingen wint zijn vrijwel ondubbelzinnig te bepalen.

Bloeddruk en tamme rat

We kunnen echter niet spreken over ‘de kans op toeval’. Om vast te stellen dat iets toeval is of niet, moet je naar het onderliggende mechanisme kijken. Er is geen kenmerk van de uitslag waaraan je dat kunt zien. Er is ook geen zinvol experiment te bedenken waarin een of ander kansmechanisme de ene keer ‘toeval’ produceert en de andere keer ‘geen toeval’.

In welke situatie zie je die onzinterm ‘kans op toeval’ opduiken? Een voorbeeld: Bij een medisch experiment wordt middel X tegen hoge bloeddruk uitgeprobeerd. Een grote groep patiënten wordt door een eerlijke loting (bijvoorbeeld door het opgooien van een munt) in tweeën gedeeld. Alle patiënten krijgen ogenschijnlijk precies hetzelfde middel, maar de ene groep krijgt X, en de andere groep krijgt een suikerpil die precies op X lijkt, een zogeheten placebo. Voor de zekerheid wordt gecontroleerd dat de twee groepen goed vergelijkbaar zijn, en dat niet het toeval van de loting de X-groep bij aanvang een gemiddeld veel hogere of lagere bloeddruk had of in een ander belangrijk opzicht afweek van de placebogroep. Bij beide groepen zakt de bloeddruk in de loop van een paar weken. Dat is normaal om diverse redenen. Bij de groep die X krijgt, gaat de gemiddelde diastolische bloeddruk met 36mm Hg extra omlaag, vergeleken met de andere groep. Het gaat om gemiddelden, en de geschatte standaardafwijking in dat verschil van gemiddelden is 18 mm Hg. De daling in de X-groep is tweemaal de standaardafwijking.

De correcte redenering begint dan als volgt. Stel dat het onderzochte middel volkomen onwerkzaam is en in alle opzichten niks meer doet dan een suikerpil, en dat de proef en het resultaat ervan op een eerlijke manier tot stand zijn gekomen. Wat zou dan de kans geweest zijn op dit resultaat? Let op de woorden ‘zou’ en ‘stel’. Het resultaat is er al, dus de kans erop is gewoon 1. Het gaat erom hoe vaak je zo’n uitkomst mag verwachten als je twee placebo’s met elkaar vergelijkt in precies zo’n experiment, en alleen het toeval van de patiënten die zich aanmelden en het toeval van de loting en andere toevalligheden zorgen voor de verschillen tussen beide groepen. De standaard berekeningswijze komt op een kans van 0,05 ofwel 5 procent of 1/20 dat het verschil minstens zo groot is. Let op ‘berekening’: die kans wordt niet bepaald door het experiment een groot aantal malen te herhalen, maar door gebruik te maken van de welbekende eigenschappen van bonafide kansprocessen.

Nu komt de volgende stap, namelijk een conclusie trekken. Voor het gemak beperken we ons tot een keuze uit twee conclusies: 1. Het middel was waardeloos voor deze groep patiënten, en 2. Het middel was niet waardeloos. Kunnen we iets zeggen over de kansen van 1. en 2.? Het antwoord is gewoon nee (behalve dan dat die kansen samen 1 zijn). Het enige wat we weten is dat:

(I) ‘Als het middel waardeloos zou zijn, dan zou de gevonden uitkomst een kans van 0,05 hebben gehad.’

Dat getal 0,05 (dus de kans op de gevonden uitkomst of een nog extremere, aangenomen dat het middel waardeloos is) heet het significantieniveau van de uitkomst. Dat is een statistische vakterm. We noteren hem vaak met p. Of die 36 mm Hg van enig klinisch belang is, staat hier helemaal los van. Ik ga nu niet diep in op de talloze manieren waarop gefraudeerd kan worden met tests om een kleinere waarde van p te fabrieken. Dat gaat meestal op dezelfde manier als bij de held in een film die zomaar een zes gooit met een dobbelsteen. Hij heeft het in werkelijkheid vaker gedaan en de andere opnamen zijn weggegooid, selectie dus.

Van bovenstaande bewering (I) mag je niet maken:

(II) ‘Met deze gevonden uitkomst is de kans dat het middel waardeloos is, gelijk aan 0,05.’

Je kunt deze onjuiste uitspraak nog verder verergeren:

(III) ‘Met deze gevonden uitkomst is de kans dat die op toeval berust gelijk aan 0,05’.

Of

(IV) ‘Het middel werkt. Het risico dat we ons vergissen is 5 procent.’

Of

(V) ‘Het is 95% zeker dat het middel werkt’.

Of

(VI) ‘Het middel werkt, met 95%betrouwbaarheid.’

De correcte uitspraak (I) is in een foute (II) veranderd door in essentie twee zinsdelen om te wisselen! Uitspraak (VI) is bijzonder bedrieglijk, want ‘betrouwbaarheid’ en ‘betrouwbaarheidsinterval’ zijn statistische vaktermen, die eveneens vaak verkeerd worden gebruikt. Ook daar geldt: áls de waarde in werkelijkheid buiten het ‘95% betrouwbaarheidsinterval’ zou zijn, dan zou de uitslag van het experiment een kans gehad hebben van 5%. Dus alweer een soort voorwaardelijkheid, en geen uitspraak over de kans dat de werkelijke waarde in dat interval ligt. Die werkelijke waarde is trouwens helemaal niet een gevolg van de werking van een kansmechanisme, in tegenstelling tot alle metingen die bij een experiment gedaan worden.

Laatst zag ik nog een mooie vergelijking. Als ik u zeg dat mijn huisdier vier poten heeft, wat is dan de kans dat het een tamme rat is? Als ik ‘vier poten heeft’ en ‘een tamme rat is’ omwissel, dan wordt het antwoord totaal anders. Zonder omwisselen is de kans bijzonder klein, want hoeveel mensen hebben er nou tamme ratten als huisdier? Met omwisselen is de kans nagenoeg100% (er is een kleine kans dat een huisdier een poot mist of dat het om een parkiet of zo gaat.)

Black Beauty

Ik verschaf nu wat meer informatie over de bloeddrukproef. Het ging om een proef met een homeopathisch middel. Dan weten we meer. De kans dat het middel waardeloos is, is 100%. Exact, dat wil zeggen 99,999... procent met honderden of duizenden negens achter de komma. Het resultaat van de proef zou een ietwat uitzonderlijk toeval kunnen zijn, maar gezien het track record van homeopaten is het onderzoeksrapport dan veeleer een zoekplaatje ‘waar zit de fout?’.

Als daarentegen het onderzochte middel al door velen is onderzocht met vergelijkbare resultaten was de kans dat het middel waardeloos is al dicht bij 0% voor de proef begon en door de testuitslag is die nu nog veel dichter bij nul procent en zeker geen 5%.

Dit is erg verwarrend. Waarom komt er elke keer wat anders uit? Laten we uitgaan van een grote verzameling vergelijkbare situaties, bijvoorbeeld verschillende middelen tegen hoge bloeddruk. In A gevallen hebben we een werkzaam middel, en in B gevallen een onwerkzaam middel. Bij een farmaceutisch bedrijf dat jaarlijks duizenden stofjes onderzoekt, verhouden A en B zich typisch als 1:10.000. Van die duizenden stofjes haalt er maar één de eindstreep. Bij een levensverzekeringsmaatschappij die van nieuwe verzekerden een hiv-test vraagt, gelden ook zulke extreme verhoudingen tussen besmette en onbesmette klanten. Als de situatie waar het om gaat ‘willekeurige vrouw van boven de 50’ is, dan gaat het misschien om ongeveer 3 gevallen ‘heeft borstkanker’ tegen 1000 gevallen ‘heeft geen borstkanker’.

De verhouding A:B of A/B heet de odds. Dat is een term uit de gokwereld. Als voor een bepaald paard, zeg Black Beauty, in een bepaalde race maar 1 op 11 gokkers denken dat Black Beauty gaat winnen, zal de bookmaker 10 maal de inzet beloven aan degene die op winst voor Black Beauty gokt. In dat geval zijn de andere 10 gokkers (die op een ander paard gegok thadden) hun inzet kwijt. Zo hoopt de bookmaker quitte te spelen. De verhouding 1:10 heet in het Nederlands ook wel de wedverhouding1.

Bayes-factor

We voeren nu een onderzoek uit. Laten we ervan uitgaan dat áls het middel werkt, er 80% kans is dat het onderzoek dit ook aantoont (dat heet de power van de test), maar dat er 5% kans is op een fout-positieve uitslag. Dus áls het middel onwerkzaam is, dan is er 5% kans dat de test toch lijkt te zeggen ‘ja, het werkt’. Die 5% is het gebruikelijke significantieniveau voor dit soort proeven.

Dan leveren de A werkzame gevallen 0,8 A correcte antwoorden ‘werkzaam’ en de B onwerkzame gevallen produceren 0,05 B foute antwoorden, namelijk ook ‘werkzaam’. Als we alleen kijken naar de gevallen die het al dan niet terechte antwoord ‘werkzaam’ hebben opgeleverd, dan is in die verzameling de verhouding werkzaam:onwerkzaam veranderd in 0,8 A : 0,05 B, en in breukvorm 16 A/B. Die voor deze test specifieke voorfactor 16 is gewoon 80 gedeeld door 5. Voor wat ik hier ‘voorfactor’ noem is ook een vakterm bedacht, namelijk likelihood ratio; sommigen spreken ook van Bayes-factor.

Toegepast op mammogrammen: het is niet zeker dat die verhouding 3:1000 ook geldt voor degenen die zich bij bevolkingsonderzoeken melden (wie weet zijn vrouwen bij wie borstkanker in de familie voorkwam meer gemotiveerd), maar laten we dat maar aannemen. Het mammogram heeft een power van 90% (dus 10% kans dat een tumor niet ontdekt wordt), terwijl er ongeveer 1% kans is dat de uitslag loos alarm is. De Bayes-factor is dus 90% gedeeld door 1%, te weten 90. De vooraf-odds van 3:1000 gaan door een ‘positieve’ uitslag over in achteraf-odds van 270:1000, ruwweg 1:4. Dat betekent dat een flinke meerderheid van de positieve uitslagen fout is, wat voor de betrokkenen heel naar is, vanwege de onzekerheid, onaangename vervolgonderzoeken en dergelijke2.

Met andere woorden, als je statistische tests uitvoert, dan is het getal dat de zeggingskracht van de test uitdrukt gelijk aan power gedeeld door significantieniveau. Dat significantieniveau is makkelijk uit te rekenen, want dat gaat uit van een duidelijk kansmodel, namelijk ‘het middel doet niks’, en in het borstkankervoorbeeld ‘er is geen borstkanker’. De power is vaak wat lastiger, speciaal als je onbekende middelen onderzoekt. Je weet namelijk niet hoeveel werking de moeite waard is. Als je vindt dat een pijnstiller ‘werkt’ als de gemiddelde pijn bij een grote groep mensen een paar procent zakt, heb je waarschijnlijk heel veel proefpersonen nodig voor een bepaalde power, en dan wordt het onderzoek ook erg duur. Als je daarentegen vindt dat een pijnstiller ‘werkt’ als bij vrijwel iedereen de pijn volkomen verdwijnt, heb je niet zoveel proefpersonen nodig.

Ik heb zojuist nogal willekeurig de power op 80% gesteld, en ik heb het significantieniveau van 5% gehanteerd. Zoals gezegd, de power van onderzoeken is meestal onzeker, maar je mag toch hopen dat de onderzoeker niet aan een onderzoek begint tenzij hij of zij een redelijke kans denkt te hebben dat het een werkend middel ook als zodanig zal aanmerken. Al met al kun je zeggen dat bij de gebruikelijke medische onderzoeken naar de werking van middelen, behandelingen en diagnostische tests de likelihood ratio tamelijk bescheiden is, iets tussen 10 en100. Bij hiv-tests (preciezer: een combinatie van ELISA en een hiv-differentiatietest) is de likelihood ratio nog veel hoger.

Als het gaat om een homeopathisch middel, dan hebben we de tamelijk uitzonderlijke situatie met A=0. Dan is zijn de odds vooraf, dus A/B, gewoon nul, en waar je dat ook mee vermenigvuldigt, het blijft nul. Gaat het daarentegen om een middel waarvan de werking bekend is, dan is A/B misschien wel in de buurt van 1000 (dus een erg kleine kans dat alle eerdere onderzoekers reuze pech hadden, of zich deerlijk vergist of massaal gefraudeerd hebben). Dan zullen de achteraf-odds door dat nieuwe onderzoek naar 10.000 of meer gaan, met andere woorden de kans gaat van 99,9% naar 99,99%.

Als je echt geen flauw idee hebt in welke situatie je verkeert, dan is de verleiding groot om beide mogelijkheden even plausibel te achten, dus A/B = 1, en naïef te denken dat de power van je test 100% is. In dat geval zijn de achteraf-odds 20, met andere woorden, een kans van 1 tegen 20 dat je je vergist.

Hiermee hebben we dus de verborgen veronderstellingen gevonden van al die sprekers over ‘kans op toeval’. Misschien zijn ze zich niet eens bewust van die veronderstellingen. Ten eerste: ze menen dat het onderzoek in kwestie een werkzaam middel vrijwel zeker zou aanwijzen. Dat is al behoorlijk optimistisch. Ten tweede, en nog belangrijker, ze vermoeden impliciet dat de onderzochte hypothese voor de proef al een fifty/fifty kans had om te kloppen: ze is waar of niet, simpel toch?

Ioannidis

Wanneer je de frase ‘p=0,05’ in woorden wilt weergeven, is de correcte versie: ‘als het om onzin gaat, is de kans op een dergelijke uitslag vijf procent’. Wil je het een beetje vriendelijker zeggen, dan wordt het ‘als slechts toeval een rol gespeeld zou hebben, zou de berekende kans op een dergelijke of meer extreme uitslag vijf procent zijn geweest.’ Welke formulering je ook kiest, die zal het woord ‘als’ bevatten of op een andere manier de voorwaarde ‘er is niets aan de hand’ / ‘het is onzin’/ ‘het middel werkt niet’ (deftig gezegd: ‘de nulhypothese geldt’) of iets dergelijks uitdrukken. Over kansen kun je pas gaan spreken als je enig benul hebt hoe groot de kans is (0,1%, 50%, 99,9%?) dat aan de voorwaarde voldaan is.

Denk aan een loterij. Wie een loterij wint, kan zeggen: ‘de kans dat ik gewonnen heb is 1’ – het is immers gebeurd, en ook: ‘elke deelnemer aan deze loterij, ik ook, had een kans van een miljoenste om te winnen toen hij of zij een lot kocht’ – er waren een miljoen loten, die door de constructie van het kansmechanisme gelijke kansen hadden. Maar ‘de kans dat het toeval is dat juist ik gewonnen heb, is een miljoenste’ is woordsla.

In 2005 schreef John Ioannidis een artikel getiteld: ‘Why most published research findings are false’. In essentie betoogde hij dat voor veel ontdekkingen de vooraf-odds zo laag zijn dat zelfs na vermenigvuldiging met de Bayes-factor (dus power gedeeld door significantieniveau) de achteraf-odds nog steeds slechter waren dan 1:1. Daar komt nog bij, betoogde hij, dat negatieve uitkomsten oninteressant zijn, dus niet gepubliceerd worden, wat tot een verdere vertekening aanleiding geeft. Uiteraard doet dit probleem zich voor in vakgebieden waar de onderzoekers grote aantallen mogelijkheden bekijken, en dan alles wat er een beetje uitspringt aangrijpen om er een publicatie van te maken. Notoire zondaars vindt men bij de voedingsleer, waar men om de haverklap verneemt dat dit of dat voedingsmiddel de een of andere ziekte bevordert of tegenwerkt. Ook genetische afwijkingen in kankercellen doen het goed. Dat komt doordat kankercellen veelal zo ontspoord zijn (door het defect raken van regelmechanismen) dat ze elk honderden willekeurige mutaties bevatten.

De kans dat God bestaat

Een kras voorbeeld van misbruik van het beginsel ‘weet niks, dus fifty/fifty’ is een recent godsbewijs3. In 2003 ‘bewees’ iemand dat de kans dat God bestaat 67% was. Nadere beschouwing wees uit dat hij begonnen was met ‘God bestaat of niet, gelijke kansen’. De argumenten pro en contra een almachtige, alwijze en algoede Schepper-God (dus niet de nogal rancuneuze en lichtgeraakte heerschappen van de gangbare religies) had hij opgevat als fictieve likelihood ratios van tests.

Bij echte tests zijn de likelihood ratios vaak nog behoorlijk te schatten, maar hij had het met een natte vinger gedaan. Doordat in zijn ogen de argumenten pro en contra vrijwel tegen elkaar wegvielen, kwam hij op achteraf-odds van ja:nee = 2:1. Zo viel het bestaan van het kwaad (likelihood ratio 0,1) weg tegen het feit dat we snappen wat goed is (likelihood ratio 10). Eveneens viel het bestaan van slechteriken weg tegen natuurlijke gebeurtenissen (genezingen e.d.) die als wonder gevoeld worden. Uiteindelijk gaf het bestaan van religieuze ervaringen (likelihood ratio 2) de doorslag. Presto: de vooraf-odds 1:1 veranderen in achteraf-odds 2:1, dus een kans van 2 op 3 dat God bestaat.

Nog afgezien van het feit dat er geen kansmechanisme bekend is dat ervoor zorgt dat we al dan niet in een universum met een algoede enzovoorts schepper-god terechtkomen4, is dit een onzinnige berekening, die je trouwens met groot gemak ook op nul kunt laten uitkomen: zo’n god is incompatibel met het bestaan van lijden en kwaad. Dat geeft een likelihood ratio nul voor de test ‘verklaart deze hypothese het lijden?’

Soms weet je heel inderdaad heel weinig. Maar zo gauw de vooraf-odds A/B ergens tussen pakweg een miljoenste en een miljoen zijn, is het zinvol om proeven te doen. Met een handvol tests die elk een likelihood ratio van enkele tientallen leveren, wordt het al gauw irrelevant waar je mee begon. Behalve als, zoals bij homeopathie, de vooraf-odds gewoon nul zijn.

 

Jan Willem Nienhuys is wiskundige, boekenvertaler en skepticus. Hij doceerde wiskunde aan de Technische Universiteit Eindhoven. Daarnaast is hij bestuurslid en secretaris van de Stichting Skepsis en redacteur bij het tijdschrift Skepter.

 

1. Odds zijn geen kansen, maar odds zoals 1 tegen 1000 zijn gelijk aan een kans van 1 op 1001. Dus zulke ‘kleine odds’ zijn numeriek praktisch hetzelfde als kleine kansen.

2. Ik heb de cijfers geprobeerd zo realistisch mogelijk te maken, maar het blijven fictieve getallenvoorbeelden. Voor de echte cijfers moet u bij een dokter zijn die hier genoeg van weet.

3. De standaard godsbewijzen zijn al door Kant afgebrand. Dus 2003 is recent.

4. Dat er universa zouden kunnen zijn met kwaadaardige goden werd niet in aanmerking genomen.

Authors
Jan Willem Nienhuys
Publicatiedatum
01-07-2021
Opgenomen in
Skeptisch & kritisch denken