Variantieanalyse: verschil tussen versies

54 bytes verwijderd ,  2 jaar geleden
k
<math> met AWB
k (<math> met AWB)
'''Variantieanalyse''', een begrip uit de [[statistiek]], vaak aangeduid als '''ANOVA''' (van het Engelse ''Analysis of variance''), is een [[statistische toets|toetsingsprocedure]] om na te gaan of de [[gemiddelde|populatiegemiddelden]] van meer dan 2 groepen van elkaar verschillen. Het is in die zin een generalisatie van de [[t-toets]] voor twee [[steekproef|steekproeven]]. De term variantieanalyse verwijst naar de uiteenlegging (analyse) van de totale variantie van de gemeten grootheid in twee delen, de variantie binnen de groepen (''binnenvariantie'') en de variantie tussen de groepen (''tussenvariantie'') die met elkaar vergeleken worden. De analysetechniek is bedacht door de Britse statisticus en geneticus [[Ronald Aylmer Fisher]] in de jaren 1920 - 1930.
 
== Voorbeeld ==
 
== Formules ==
Als [[wiskundig model|model]] nemen we aan dat de lichaamslengte in elk van de a=3 groepen een [[normale verdeling]] heeft, met [[verwachtingswaarde]]n resp. <math>\mu_1</math>, <math>\mu_2</math> en <math>\mu_3</math> en voor elke groep dezelfde [[variantie]] <math>\sigma^2</math>.
 
Het is gebruikelijk om het gemiddelde niveau van de a groepen met μ aan te duiden en de afwijkingen daarvan met <math>\alpha_i</math>, dus:
 
:<math>\mu_i = \mu + \alpha_i\!</math>,
 
zodat:
:<math>\sum \alpha_i=0</math>.
 
De systematische verschillen komen dan tot uiting in de <math>\alpha_i's</math>.
 
Uit de groepen nemen we (onafhankelijke, aselecte) [[steekproef|steekproeven]], voor het gemak alle van dezelfde omvang ''m'':
 
:<math>X_{11},...,X_{1m},X_{21},...,X_{2m},X_{31},...,X_{3m}\!</math>.
 
Voor een zo'n element kunnen we schrijven:
 
:<math>X_{ij}= \mu+\alpha_i+U_{ij}\!</math>.
Zo is de lengte van de eerste gemeten Fries:
:<math>X_{11}=\mu+\alpha_1+U_{11}\!</math>,
dus de som van het algemeen gemiddelde <math>\mu</math>, de afwijking <math>\alpha_1</math> daarvan voor Friezen in het algemeen, en een persoonlijke bijdrage <math>U_{11}</math>.
De persoonlijke bijdragen (storingstermen) (<math>U_{ij}</math>) zijn onderling onafhankelijk en alle <math>N(0,\sigma^2)</math>-verdeeld.
 
Voor de berekeningen nemen we de volgende eenvoudige, fictieve getallen als uitkomst van de steekproef:
:<math>SST=\sum(X_{ij}-X..)^2=\sum_{i,j}(X_{ij}-X_i.+X_i.-X..)^2=\sum_{i,j}(X_{ij}-X_i.)^2+m\sum_i(X_i.-X..)^2</math>.
 
In onze steekproef is ''X..=177'', zodat ''SST=36+16+196+64+4+144+256+36+16=768''.
 
De eerste component,
:<math>SSE=\sum_{i,j}(X_{ij}-X_i.)^2 \!</math>,
beschrijft de variatie binnen de groepen als gevolg van de afwijkingen binnen elke groep ten opzichte van het groepsgemiddelde.
 
De tweede component,
:<math>SSA=m\sum_i(X_i.-X..)^2 \!</math>,
beschrijft de variatie tussen de groepen als gevolg van de afwijkingen van de groepsgemiddelden ten opzichte van het algemeen gemiddelde.
 
In onze steekproef is:
 
Onder de nulhypothese van geen verschillen geldt voor de verdelingen:
:<math>SSE/\sigma^2 \!</math> is [[Chi-kwadraatverdeling|chi-kwadraat]]verdeeld met a(m-1) vrijheidsgraden
en
:<math>SSA/\sigma^2 \!</math> is chi-kwadraatverdeeld met a-1 vrijheidsgraden.
 
Onder de gemiddelde kwadratensom verstaat men de kwadratensom gedeeld door de bijbehorende vrijheidsgraden:
:<math>MSE=SSE/(a(m-1))\!</math>
en
:<math>MSA=SSA/(a-1)\!</math>.
 
In de steekproef: ''MSA=168/2=84'' en ''MSE=600/6=100''.
 
Als toetsingsgrootheid ''F'' neemt men het quotiënt van deze gemiddelde kwadratensommen:
 
:<math>F=MSA/MSE \!</math>.
 
Als de nulhypothese waar is, heeft ''F'' een [[F-verdeling]] met a-1 vrijheidsgraden in de teller en a(m-1) in de noemer. Merk op dat de onbekende parameter <math>\sigma^2</math> bij het delen is weggevallen. Is de nulhypothese niet waar, dan kan men vrij eenvoudig inzien dat ''F'' statistisch grotere waarden zal aannemen. De nulhypothese wordt dus verworpen voor grote waarden van ''F''.
 
In ons voorbeeld is dus: ''F=84/100=0.84''. Aangezien ''F<1'', is de overschrijdingskans ''p>0.5''; geen reden om de nulhypothese te verwerpen.
|}
 
Dat de steekproef niet significant is, hadden we vrij direct kunnen zien, aangezien binnen de groepen afwijkingen van 10 tov. het groepsgemiddelde voorkomen en de verschillen tussen de groepsgemiddelden niet groter dan 10 zijn.
 
Verkleinen we de variatie binnen de groepen als volgt:
 
=== Voorbeeld ===
We bespreken een voorbeeld van een tweeweg-variantieanalyse.
 
In een onderzoek naar de opbrengst van tarwesoorten in relatie met de bodemgesteldheid, worden 4 soorten tarwe vergeleken elk groeiend op 3 grondsoorten. Er zijn dus twee factoren: soort op 4 niveaus en grond op 3 niveaus. De opbrengst X van een tarwe-aar wordt gemodelleerd als:
 
:<math>X_{ijk}= \mu+\alpha_i+\beta_j+ \alpha\beta_{ij}+U_{ijk}\!</math>.
 
Daarin is:
:<math>X_{ijk}\!</math> de opbrengst van aar nummer k van soort i op grond j
:<math>\mu\!</math> de verwachte opbrengst gemiddeld over alle soorten en gronden
:<math>\alpha_i\!</math> de bijdrage aan de opbrengst van soort i
:<math>\beta_j\!</math> de bijdrage aan de opbrengst van grond j
:<math>U_{ijk}\!</math> de eigen specifieke bijdrage van aar k van soort i op grond j; onderling onafhankelijk en <math>N(0,\sigma^2)-</math>verdeeld verondersteld.
De term
:<math>\alpha\beta_{ij}\!</math>
de zogenaamde interactieterm behoeft nog wat nadere verklaring. Niet altijd nemen we deze op in het model. Als er reden is om aan te nemen dat een bepaalde soort tarwe het beter doet op de ene grondsoort en een andere soort weer beter groeit op een andere grondsoort, is er sprake van interactie tussen de tarwesoort en de grondsoort. Om het effect daarvan in het model te beschrijven, nemen we de bovengenoemde interactieterm op. Het is gebruikelijk deze weer te geven met de symbolen van de interagerende factoren, hier dus α en β (dus niet te lezen als het product van beide!)
 
De analyse van de variantie houdt nu in dat de totale kwadratensom als volgt uiteengelegd wordt (ook hier wordt weer door een . aangegeven dat over de betrokken index gemiddeld is):
 
:<math>SS_T=SS_A+SS_B+SS_{AB}+SS_E\!</math>,
 
waarin: