Empirische verdelingsfunctie

(Doorverwezen vanaf Somfrequentie)

In de statistiek is de empirische verdelingsfunctie, ook wel aangeduid als cumulatieve relatieve-frequentieverdeling, de trapfunctie die telkens een sprong ter grootte maakt in elk van de waarnemingen van een aselecte steekproef. Het is de verdelingsfunctie die, in bepaalde zin, zo goed mogelijk bij de gevonden data past. Theoretisch gezien is de empirische verdelingsfunctie, in afhankelijkheid van de steekproef, een steekproeffunctie, dus een stochastische variabele, die voor elke mogelijke steekproefuitkomst bepaald wordt door de genoemde trapfunctie. De empirische verdelingsfunctie kan gezien worden als een schatter van de (cumulatieve) verdelingsfunctie die de verdeling beschrijft waaruit de data afkomstig zijn.

Definitie bewerken

De empirische verdelingsfunctie   van een aselecte steekproef   van   is gedefinieerd als:

 .

De empirische verdelingsfunctie telt het relatieve aantal waarden   in de steekproef die kleiner of gelijk zijn aan  .

Een meer formele formulering van de definitie is:

 ,

waarin gebruikgemaakt is van de indicatorfunctie   die de waarde 1 of 0 aanneemt al naargelang het i-de steekproefelement   kleiner of gelijk is aan  .

Verdeling bewerken

Uit de definitie blijkt dat de empirische verdelingsfunctie  , een steekproeffunctie is, en dus voor elke   een stochastische variabele.

Voor elke   is het  -voud van de empirische verdelingsfunctie,  , binomiaal verdeeld met parameters   en succeskans  :

 

Dus geldt voor de verwachtingswaarde en de variantie:

 

en

 

Geordende steekproef bewerken

Er is een eenvoudige relatie tussen de empirische verdelingsfunctie en de geordende steekproef  . De empirische verdelingsfunctie maakt namelijk steeds een sprong ter grootte   in de elementen van de geordende steekproef. Dus:

 

of

 

Asymptotiek bewerken

Bij toenemende omvang van de aselecte steekproef benadert de empirische verdelingsfunctie in bepaalde zin steeds beter de werkelijke verdelingsfunctie van de verdeling waaruit de steekproef afkomstig is. Volgens de sterke wet van de grote getallen geldt namelijk voor iedere  :

 ,

dat wil zeggen dat de empirische verdelingsfunctie puntsgewijs bijna zeker (a.s.) convergeert naar de verdelingsfunctie.

Een sterkere uitspraak is de stelling van Glivenko–Cantelli die zegt dat de puntsgewijs bijna zekere convergentie uniform is, dus

 .

Op grond van deze eigenschap is het zinvol de waarnemingen door de empirische verdelingsfunctie te beschrijven.

De centrale limietstelling zegt verder dat puntsgewijs de empirische verdelingsfunctie asymptotisch een normale verdeling heeft:

 

Ogief bewerken

De empirische verdelingsfunctie geeft de cumulatieve relatieve frequentie (CRF) weer. Een variant van de empirische verdelingsfunctie geeft de cumulatieve absolute frequenties (CAF) weer. De grafische voorstelling van de CRF noemt men het ogief, vanwege zijn vormovereenkomst met de architectonische ogief- of ojiefboog.

 
Cumulatieve frequentieverdeling van de doorlatendheid van de bodem gemeten met de boorgatmethode

Toepassing bewerken

De empirische verdelingsfunctie kan gebruikt worden om na te gaan of de data uit een specifieke kansverdeling afkomstig zijn. Om bijvoorbeeld na te gaan of de onderliggende verdeling een normale verdeling is, kunnen de cumulatieve (relatieve) frequenties uitgezet worden op normaal waarschijnlijkheidspapier. Ontstaat een min of meer rechte lijn, dan mag worden aangenomen dat er van een normale verdeling sprake is.

Referenties bewerken

  • van der Vaart, A.W. (1998), Asymptotic statistics. Cambridge University Press. ISBN 0-521-78450-6.

Externe link bewerken