Bimodale verdeling

Een bimodale verdeling is een kansverdeling met twee modi, twee verschillende pieken.[1] Dit betekent meestal dat er twee verschillende waarden zijn waar de metingen rond verdeeld zijn.

Een voorbeeld van een bimodale verdeling

Een goed voorbeeld van een bimodale kansverdeling is de verdeling van de lengte van personen. De lengte van mannen vormt ongeveer een normale verdeling en evenzo de lengte van vrouwen. In de verdeling van de lengte van personen zijn deze beide verdelingen samengevoegd en ontstaat er een bimodale verdeling, waarvan de waarden gespreid liggen rond beide verwachtingswaarden. In dit voorbeeld duidt een bimodale verdeling erop, dat deze opgebouwd is uit twee verschillende unimodale verdelingen, elk met één opvallende piek. Dit is echter zeker niet altijd het geval.

Bimodale verdelingen zijn vaak gebruikte voorbeelden om aan te tonen hoe misleidend de interpretatie van begrippen zoals verwachting, mediaan en standaardafwijking kunnen zijn voor een willekeurige verdeling. Veel statistiek is ontwikkeld onder de aanname dat de verdeling een (unimodale) normale verdeling is. Er is ook een tak van de statistiek die deze aanname niet maakt, de niet-parametrische methodes, maar die methodes zijn vaak minder krachtig.

Meer dan twee modi

bewerken
 
Hoe een multimodale verdeling kan ontstaan uit een normale verdeling als de gebruikte ijklijn hobbelig is

Het modaliteitsprobleem is niet beperkt tot twee maxima. Ook kansverdelingen met drie of meer maxima komen voor of kunnen bijvoorbeeld ontstaan wanneer er een ijklijn gebruikt moet worden die niet een simpele strakke rechte lijn is. Een goed voorbeeld daarvan treedt op in de ijklijn die gebruikt wordt in de kalibratie van de koolstof-14-datering.[2] Deze is bij benadering een rechte lijn, maar er zitten wat anomalieën in (hobbels en bobbels) omdat de productie van de 14C-isotoop in de loop van de geschiedenis niet altijd even constant geweest is. Dit is waarschijnlijk voornamelijk het gevolg van een wisselende sterkte van de kosmische straling waaraan onze planeet heeft blootgestaan, het De Vries-effect.

Normaliteit

bewerken

Niet alle gemeten (en geijkte) waarden volgen altijd automatisch een unimodale normale verdeling.[3] Soms voldoen meetwaarden daar niet aan en dat betekent dan dat veel statistische modellen minder goed bruikbaar worden, omdat deze uitgaan van normaliteit. Gelukkig is het wel zo dat de centrale limietstelling van de statistiek ervoor zorgt dat een verzameling gemiddelden van waarden, ook als deze uit een bi- of trimodale verdeling komen, meer en meer een normale verdeling gaan volgen. Hoe meer er wordt gemiddeld, hoe meer de normale verdeling benaderd wordt. Bij het meten wordt meestal al vaak gemiddeld, bijvoorbeeld over alle moleculen in het monster of alle fotonen in de bundel licht of over alle metingen die we van hetzelfde monster nemen. Dit maakt dat veel metingen, maar lang niet alle, een min of meer normaal resultaat opleveren. Een histogram opbouwen vereist een tamelijk groot aantal meetwaarden. Dit is waarom er vaak een verstekaanname gemaakt wordt: zolang uit de data geen afwijking van normaliteit blijkt, neemt men in de wetenschap normaliteit aan. Als andere wetenschappers vermoeden dat die verstekaanname tot onjuiste conclusies leidt, is het aan hen het vaak vele werk te doen om die afwijking daadwerkelijk aan te tonen.