Mediaan (statistiek): verschil tussen versies

299 bytes toegevoegd ,  1 jaar geleden
geen bewerkingssamenvatting
 
== Verdeling ==
Als de populatie gegeven is door de [[verdelingsfunctie]] ''<math>F''</math>, is de mediaan ''<math>m''</math> bepaald als het punt (een van de punten), waarvoor geldt: <math>F(m) = \tfrac 12</math>.
 
== Steekproef ==
 
=== Voorbeelden ===
In de onderstaande tabel staan de geordende uitkomsten ''x<submath>ix_i</submath>'' van een steekproef van omvang 13.
:{| class="wikitable" style="text-align:center;width:500px;"
!<math> i</math>
|1|| 2 || 3|| 4|| 5|| 6|| 7||8|| 9|| 10|| 11|| 12|| 13
|-
! <math> x_i</math>
| -2,1|| -1,6||0,1||0,2||0,5||0,6||'''0,7'''||0,8||0,8||0,9||1,1||1,2||6,5
|-
|}
 
Omdat <math>n = 13</math> oneven is, is het 7e getal middelste getal. De mediaan van de steekproef is dus 0,7 (en een schatting voor de mediaan van de hele populatie).
 
Als de steekproef maar 12 elementen bevat is er geen middelste.
 
:{| class="wikitable" style="text-align:center;width:500px;"
!<math> i</math>
|1|| 2 || 3|| 4|| 5|| 6|| 7||8|| 9|| 10|| 11|| 12
|-
! <math> x_i</math>
| -2,1|| -1,6||0,1||0,2||0,6||'''0,7'''||'''0,8'''||0,8||0,9||1,1||1,2||6,5
|}
 
 
De mediaan ''<math>m''</math> van de [[exponentiële verdeling]] met parameter λ<math>\lambda</math> wordt bepaald door:
:<math>\tfrac 12 = \int_0^m \lambda e^{-\lambda x}dx\mathrm{d}x = 1-e^{-\lambda m}</math>.
 
:<math>\tfrac 12 = \int_0^m \lambda e^{-\lambda x}dx = 1-e^{-\lambda m}</math>.
Dus:
:<math>e^{-\lambda m}=\tfrac 12,</math>,
 
:<math>e^{-\lambda m}=\tfrac 12,</math>
waaruit volgt:
:<math>m=\frac 1\lambda\ln2\,.</math>
 
:<math>m=\frac 1\lambda\ln2\,.</math>
 
== Eigenschappen van de mediaan ==
Voor een symmetrische verdeling waarvoor het populatiegemiddelde μ<math>\mu</math> bestaat, zoals de [[normale verdeling]], is de populatiemediaan gelijk aan μ<math>\mu</math>.
Dat wil echter niet zeggen dat de steekproefmediaan en het steekproefgemiddelde van een steekproef uit zo'n verdeling, ook aan elkaar gelijk zijn. Zij zijn twee verschillende schattingen van dezelfde grootheid μ. Beide schattingen hebben hun sterke en zwakke kanten.
 
Dat wil echter niet zeggen dat de steekproefmediaan en het steekproefgemiddelde van een steekproef uit zo'n verdeling, ook aan elkaar gelijk zijn. Zij zijn twee verschillende schattingen van dezelfde grootheid μ<math>\mu</math>. Beide schattingen hebben hun sterke en zwakke kanten.
Het steekproefgemiddelde is superieur wanneer het erom gaat tot het uiterste gebruik te maken van de in de steekproef aanwezige informatie. Dit noemt men ''efficiëntie''. Het steekproefgemiddelde onderdrukt de willekeurige fout in de steekproef beter dan de mediaan en is daarmee een nauwkeuriger schatting van μ. Daar staat echter iets tegenover. Laten we bijvoorbeeld de bovenstaande getallen nemen, maar een typefout introduceren.
 
Het steekproefgemiddelde is superieur wanneer het erom gaat tot het uiterste gebruik te maken van de in de steekproef aanwezige informatie. Dit noemt men ''efficiëntie''. Het steekproefgemiddelde onderdrukt de willekeurige fout in de steekproef beter dan de mediaan en is daarmee een nauwkeuriger schatting van μ<math>\mu</math>. Daar staat echter iets tegenover. Laten we bijvoorbeeld de bovenstaande getallen nemen, maar een typefout introduceren.
 
:{| class="wikitable" style="text-align:center;width:500px;"
 
=== Robuuste statistiek ===
Hoewel de mediaan al erg lang bekend is, zijn de robuuste eigenschappen lange tijd niet of nauwelijks volledig uitgebuit. Vooral door het werk van de Belgische statisticus Rousseeuw<ref>Rousseeuw, P.J. (1984). ''Least Median of Squares Regression.'' Journal of the American Statistical Association, Vol. ''79'', 871-880.</ref> is daar sinds de jaren 80 verandering in gekomen. Het probleem was niet dat er geen robuuste schatting voor μ<math>\mu</math> bestond, maar dat een robuuste schatting voor de [[standaardafwijking]] σ<math>\sigma</math> ontbrak. In de op [[kleinste-kwadratenmethode|kleinste kwadraten]] gebaseerde schattingen wordt μ<math>\mu</math> geschat door het steekproefgemiddelde en σ<math>\sigma</math> door de steekproefstandaardafwijking <math>s</math>. De laatste waarde is echter nog minder robuust dan het gemiddelde, zoals een kleine berekening met de bovenstaande waarden goed laat zien.
 
Rousseeuw stelde voor de <math>\text{MAD}</math>: mediane absolute deviatie (van de mediaan) daarvoor in de plaats te stellen.
 
Deze wordt berekend door eerst van alle getallen de mediaan ''<math>m = 0{,}7''</math> af te trekken en de absolute waarde te nemen.
 
:{| class="wikitable" style="text-align:center;width:500px;"
!<math> i</math>
|1|| 2 || 3|| 4|| 5|| 6|| 7||8|| 9|| 10|| 11|| 12|| 13
|-
! <math> x_i</math>
| -2,1|| -1,6||0,1||0,2||0,5||0,7||'''0,7'''||0,8||0,8||0,9||1,1||1,2
| style="background:Yellow" | ''650''
|-
! <math>| x_i-m|</math>
||2,8|| 2,3|| 0,6|| 0,5|| 0,2|| 0|| 0|| 0,1|| 0,1|| 0,2|| 0,4|| 0,5|| 649,3
|-
|}
 
De mediaan hiervan is <math>0{,}4 = \text{MAD}</math>.
 
Voor data uit een normale verdeling wordt een goede (en robuuste!) schatting van σ<math>\sigma</math> gegeven door <math>1{,}483&nbsp; \,\text{MAD}</math>.
 
(De factor 1,483 heeft te maken met het feit dat in een normale verdeling de mediaan ''<math>a''</math> van de absolute deviatie gegeven wordt door:
 
:<math>\tfrac 12 = P(|X-\mu|\le a)=P\left(\left|\frac{X-\mu}{\sigma}\right|\le \frac a\sigma\right)=P\left(|Z|\le \frac a\sigma\right),</math>,
 
waaruit volgt dat
:<math>P\left(Z\le \frac a\sigma\right)=\Phi\left(\frac a\sigma\right)=0{,}75.</math>
 
We zien dus dat ''<math>a''/σ\sigma</math> het 75ste [[percentiel]] is van de standaard normale verdeling, dus
:<math>\frac a\sigma=\Phi^{-1}(0{,}75)=0{,}6745,</math>,
 
:<math>\frac a\sigma=\Phi^{-1}(0{,}75)=0{,}6745,</math>
zodat:
:<math>\sigma=1{,}4826 a</math>.
 
Met behulp van mediaan en <math>\text{MAD}</math> is het mogelijk de uitbijter te verwijderen door zijn deviatie (649,3) te vergelijken met de geschatte σ<math>\sigma</math> (0,6). Omdat dit een factor 1000 scheelt is het uiterst onwaarschijnlijk dat dit punt bij de onderliggende verdeling hoort.
 
{{Appendix|2=
31.420

bewerkingen