Theorema van Bayes

Het theorema van Bayes (ook regel van Bayes of stelling van Bayes) is een regel uit de kansrekening die de kans dat een bepaalde mogelijkheid ten grondslag ligt aan een gebeurtenis uitdrukt in de voorwaardelijke kansen op de gebeurtenis bij elk van de mogelijkheden. Het theorema is weliswaar genoemd naar Thomas Bayes, maar vrijwel zeker niet door hem geformuleerd, maar door Pierre-Simon Laplace, die vrij zeker inspiratie opdeed bij een postuum gepubliceerd artikel van Bayes uit 1763. Het theorema komt voor in de Théorie analytique des probabilités van Laplace uit 1812. Het theorema wordt ook wel omkeerformule genoemd, omdat het de "omgekeerde" voorwaardelijke kans berekent. In formulevorm ziet het theorema er als volgt uit:

De gebeurtenis kan plaatsvinden onder de omstandigheid dat optreedt, maar ook als niet optreedt. Uitgaande van de voorwaardelijke kansen op gegeven de mogelijkheden wel en niet wordt de kans bepaald dat, uitgaande van de situatie dat daadwerkelijk gebeurd is, het de omstandigheid was waaronder is opgetreden.

De formule is een directe toepassing van de definitie van voorwaardelijke kans

en de wet van de totale kans die in dit geval luidt:

A-priori- en a-posteriori-kansenBewerken

Bij toepassing van het theorema wordt uitgegaan van een reeds bekende kans   op een gebeurtenis  , de zogenaamde a-priori-kans, op basis van eerder onderzoek. Bij gebrek daaraan kan hiervoor ook het oordeel van een ervaringsdeskundige worden gevraagd die een bepaalde waarschijnlijkheid toekent aan de gebeurtenis   bijvoorbeeld door te schatten dat een voorval voor 0,7 (70%) plausibel wordt geacht. Na waarneming van een gerelateerde gebeurtenis   is kennis verkregen over de kans van optreden van  . Deze nieuwe kans wordt de a-posteriori-kans genoemd en is juist de voorwaardelijke kans  

De regel van Bayes vindt ook toepassing in kennissystemen.

VoorbeeldenBewerken

In de bevolking lijdt 1 op de 100 mensen aan reumatoïde artritis. Er bestaat een test, de "reumatest", die bij reumapatiënten meestal positief is en bij niet-reumapatiënten meestal negatief. De test is echter niet 100% waterdicht en heeft een specificiteit (dat wil zeggen de kans op een negatieve test als de ziekte afwezig is) van 0,8 en een sensitiviteit (kans op een positieve test bij aanwezigheid van de ziekte) van 0,7.

Vraag: Is het zinvol om de bevolking met deze test op het voorkomen van reuma te testen?

Daartoe bepalen we wat de kans is op de ziekte als we een willekeurig iemand uit de bevolking testen en de uitslag positief is.

Met   geven we aan dat de testpersoon aan de ziekte lijdt en met   dat de uitslag van de test positief is. Uit de bovenstaande gegevens volgt:

  (kans dat iemand de ziekte heeft)
  (de kans op een positieve uitslag als de ziekte aanwezig is)
  (de kans op een negatieve uitslag als de ziekte afwezig is)

Met de regel van Bayes kunnen we nu berekenen:

 

Dus zelfs bij een positieve uitslag van de test is de kans dat de onderzochte persoon de ziekte heeft maar iets meer dan drie procent. De "reumatest" is in deze situatie nagenoeg onbruikbaar.

CoronazelftestBewerken

Een praktisch voorbeeld in de epidemiologie uit 2021 illustreert het belang van dit theorema. De corona-zelftest van Roche heeft een sensitiviteit van 96,52% en een specificiteit van 99,68%.

Als "C19" staat voor de aanwezigheid van de ziekte COVID-19 ("corona") en + en − respectievelijk voor een positieve en een negatieve uitslag van de test, dan betekent dit:

 

en

 

Dat lijkt heel hoog. Maar als de prevalentie slechts 1 op 10.000 is, d.w.z.:

 

impliceert dit

 
 

en

 

Test men met deze test 10.000 personen, onder wie zich dus vermoedelijk 1 besmette bevindt, dan zal vrijwel zeker de besmette een positieve uitslag krijgen. Maar van de 9999 niet besmette personen zullen er 32 een valspositieve uitslag krijgen. De 9967 personen met een negatieve uitslag weten bijna zeker dat ze niet besmet zijn. Maar van de 33 met een positieve uitslag is er slechts 1 besmet, alleen is onbekend wie dat is. Dus is de kans dat een individu werkelijk besmet is na een positieve uitslag slechts iets meer dan 3% in dit scenario. Deze zelftest is dus weinig bruikbaar om vast te stellen of je met corona besmet bent, tenzij de prevalentie rond de 1% of hoger ligt.

GeneralisatieBewerken

Onderscheidt men bij het optreden van de gebeurtenis   niet slechts de mogelijkheden   en niet  , maar een reeks (disjuncte) mogelijkheden  , die dus een partitie van de uitkomstenruimte vormen, dan luidt de regel:

 

Men kan nog algemener een soortgelijke regel formuleren voor kansverdelingen. Voor de simultane continue verdeling van twee stochastische variabelen   en   luidt deze:

 

Bayesiaanse statistiekBewerken

De Bayesiaanse statistiek heeft het theorema van Bayes als uitgangspunt.

Bayes en justitieBewerken

Het theorema van Bayes werd verscheidene keren in het recht gebruikt,[1]. Het gebrek aan kennis hiervan heeft in bepaalde zaken geleid tot ernstige gerechtelijke dwalingen zoals bij Sally Clark en bij Lucia de Berk[2].