Een Q-Q plot (afkorting uit het Engels: quantile-quantile plot) is een grafiek waarin twee continue of discrete kansverdelingen worden vergeleken in de beschrijvende statistiek. Deze methode is voor het eerst gebruikt in 1968 door M. B. Wilk en R. Gnanadesikan.[1] In een Q-Q plot worden de kwantielen van beide kansverdelingen tegen elkaar uitgezet. Als beide datasets uit dezelfde verdeling komen, liggen de punten op de lijn .

Een Q–Q plot die een willekeurige gegenereerde, onafhankelijk standaardnormaal verdeelde dataset op de verticale as vergelijkt met een standaardnormale verdeling op de horizontale as. De punten liggen rondom y=x, wat suggereert dat de data inderdaad standaardnormaal verdeeld zijn.

Andere grafische methoden, zoals een histogram of een boxplot. zijn eenvoudiger interpreteerbaar dan een Q-Q plot, maar de vergelijking tussen twee verdelingen komt in een Q-Q plot beter uit de verf.

Definitie bewerken

Gegeven twee datasets   en  , niet noodzakelijk even groot, met bijbehorende empirische verdelingsfuncties   en  , en kwantielfuncties   en  . In een Q-Q plot wordt het  -de kwantiel van   tegen het  -de kwantiel van   getekend voor een aantal waarden van  . Een Q-Q plot is dus een parametrische kromme  .

Varianten bewerken

In een Q-Q plot worden twee datasets met elkaar vergeleken. Daar zijn de volgende mogelijkheden voor:[2]

  1. De data worden vergeleken met een bekende kansverdeling. Er wordt grafisch getoetst of de data uit deze verdeling komen.
  2. De data uit twee verzamelingen worden vergeleken om te kijken of ze uit dezelfde verdeling komen. Hiervoor moeten de data op de lijn   liggen. Welke verdeling dat is, valt niet te concluderen.
  3. Data uit twee verzamelingen worden vergeleken om te kijken of ze lineair afhankelijk zijn. Hiervoor liggen de data op een rechte lijn, maar niet per se op  .

Voor- en nadelen bewerken

Ten opzichte van andere grafische methoden heeft de Q-Q plot een aantal voordelen.[3]

  • De te vergelijken datasets hoeven niet even groot te zijn.
  • Meerdere verschillen tussen de verdelingen kunnen tegelijk worden onderzocht, waaronder translatie, spreiding, symmetrie en het gedrag in de limieten.

Er zijn ook nadelen:

  • Bij het vergelijken van twee verschillende datasets is niet te concluderen welke verdeling ze uiteindelijk hebben.
  • De methode is grafisch, er is een maat nodig om met bijvoorbeeld hypothesetoetsen te concluderen of de hypothese juist is.

Methode in de praktijk bewerken

De meeste wiskundige programmeertalen bieden de mogelijkheid om Q-Q plots te tekenen, zoals R en Matlab.[4][5]

Met de hand kan ook een Q-Q plot getekend worden voor kleine datasets. Voor het vergelijken van twee datasets of deze uit dezelfde verdeling komen, moet de volgende procedure worden toegepast.

  1. Sorteer alle data (per dataset) van klein naar groot.
  2. Kies een aantal kwantielen die onderzocht worden (bijvoorbeeld 5%, 10%, 15%, ..., 95%).
  3. Bereken welke waarde van de data hoort bij deze kwantielen.
  4. Teken deze waarden in een Q-Q plot.
 
Q-Q plot bij voorbeeld 1

Voorbeeld 1 bewerken

Van een onbekend radioactief materiaal is bekend dat deze alleen alfastraling uitzendt. In een experiment is de halveringstijd van dit materiaal 50 keer bepaald. Men verwacht dat het materiaal Cesium-131 is met een halveringstijd van 9,7 dagen. Er wordt gekozen voor het maken van een Q-Q plot tussen de data en een poissonverdeling met  .

Duidelijk is te zien dat de lijn verschoven is ten opzichte van de lijn  . Er is dus een translatie zichtbaar, wat impliceert dat het onderzochte materiaal waarschijnlijk geen Cesium-131 is.

Voorbeeld 2 bewerken

 
Q-Q plot bij voorbeeld 2.

Van 100 volwassen mannen en 95 volwassen vrouwen is het gewicht (in kg) bepaald. Op basis hiervan worden de 5%, 10%, 15%, enz. kwantielen berekend voor beide datasets. Er zijn nu voor beide 19 waardes beschikbaar, deze zijn weergegeven in onderstaande tabel.

kwantiel 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95
mannen 64,9 67,1 69,6 72,0 74,0 75,5 76,7 77,6 78,5 79,2 80,2 81,7 83,6 86,5 87,6 89,7 91,5 96,2 98,3
vrouwen 65,0 67,2 69,0 71,0 74,0 74,6 75,5 76,7 78,2 79,7 81,0 82,7 84,5 86,6 87,2 88,2 90,1 92,6 96,8

Uit de Q-Q plot zien we dat de datapunten rondom de lijn   liggen. Zodoende is het gewicht van mannen en vrouwen waarschijnlijk gelijk verdeeld.

Referenties bewerken

  1. Wilk, M.B., Gnanadesikan, R. (1968). Probability plotting methods for the analysis of data. Biometrika 55: 1–17. PMID: 5661047DOI:10.1093/biomet/55.1.1.
  2. (en) Thode, Henry C. (2002), Testing For Normality. Marcel Dekker, Inc., "Section 2.2.2, Quantile-Quantile Plots", pp. 21.
  3. NIST/SEMATECH, e-Handbook of Statistical Methods. Geraadpleegd op 7 november 2018.
  4. Ford, Clay, Understanding Q-Q Plots (26 augustus 2015). Geraadpleegd op 14 november 2018.
  5. The Mathworks, Inc., Quantile-quantile plot. Geraadpleegd op 19 november 2018.
Zie de categorie Q-Q plot van Wikimedia Commons voor mediabestanden over dit onderwerp.