Variantieanalyse: verschil tussen versies

508 bytes toegevoegd ,  1 jaar geleden
geen bewerkingssamenvatting
 
== Formules ==
Als [[wiskundig model|model]] nemen we aan dat de lichaamslengte in elk van de <math>a=3</math> groepen een [[normale verdeling]] heeft, met [[verwachtingswaarde]]n resp. <math>\mu_1</math>,\ <math>\mu_2</math> en <math>\mu_3</math> en voor elke groep dezelfde [[variantie]] <math>\sigma^2.</math>.
 
Het is gebruikelijk om het gemiddelde niveau van de <math>a</math> groepen met μ<math>\mu</math> aan te duiden en de afwijkingen daarvan met <math>\alpha_i,</math>, dus:
 
:<math>\mu_i = \mu + \alpha_i</math>,
:<math>\sum \alpha_i=0</math>.
 
De systematische verschillen komen dan tot uiting in de <math>\alpha_i's</math>'s.
 
Uit de groepen nemen we (onafhankelijke, aselecte) [[steekproef|steekproeven]], voor het gemak alle van dezelfde omvang ''<math>m'':</math>
 
:<math>X_{11},...\ldots,X_{1m},X_{21},...\ldots,X_{2m},X_{31},...\ldots,X_{3m}</math>.
 
Voor een zo'n element kunnen we schrijven:
 
Voor de berekeningen nemen we de volgende eenvoudige, fictieve getallen als uitkomst van de steekproef:
<br />:Friezen: 171,181,191 <br />
<br />:Hollanders: 169,179,189 <br />
<br />:Limburgers: 161,171,181
 
De totale kwadratensom <math>SST</math> van afwijkingen tovt.o.v. het algemeen gemiddelde ''<math>X''..</math> (het is gebruikelijk om gemiddelden aan te geven door de index waarover gemiddeld is, te vervangen door een stip) kan als volgt uiteengelegd worden:
 
:<math>SST=\sum(X_{ij}-X..)^2=\sum_{i,j}(X_{ij}-X_i.+X_i.-X..)^2=\sum_{i,j}(X_{ij}-X_i.)^2+m\sum_i(X_i.-X..)^2</math>.
:::<math>=\sum_{i,j}(X_{ij}-X_i.+X_i.-X..)^2=</math>
:::<math>=\sum_{i,j}(X_{ij}-X_i.)^2+m\sum_i(X_i.-X..)^2</math>
 
In onze steekproef is ''<math>X..=177'',</math> zodat '':<math>SST=36+16+196+64+4+144+256+36+16=768''.</math>
 
De eerste component,
In onze steekproef is:
 
:<math>X_1.=181</math>,\ <math>X_2.=179</math> en <math>X_3.=171</math>, zodat ''SSE=600'' en ''SSA=168''.
zodat
:<math>SSE=600</math> en <math>SSA=168</math>.
 
Onder de nulhypothese van geen verschillen geldt voor de verdelingen:
:<math>SSE/\sigma^2</math> is [[Chi-kwadraatverdeling|chi-kwadraat]]verdeeld met <math>a(m-1)</math> vrijheidsgraden
en
:<math>SSA/\sigma^2</math> is chi-kwadraatverdeeld met <math>a-1</math> vrijheidsgraden.
 
Onder de gemiddelde kwadratensom verstaat men de kwadratensom gedeeld door de bijbehorende vrijheidsgraden:
:<math>MSA=SSA/(a-1)</math>.
 
In de steekproef: ''<math>MSA=168/2=84''</math> en ''<math>MSE=600/6=100''.</math>
 
Als toetsingsgrootheid ''<math>F''</math> neemt men het quotiënt van deze gemiddelde kwadratensommen:
 
:<math>F=MSA/MSE</math>.
 
Als de nulhypothese waar is, heeft ''<math>F''</math> een [[F-verdeling]] met <math>a-1</math> vrijheidsgraden in de teller en a(m-1) in de noemer. Merk op dat de onbekende parameter <math>\sigma^2</math> bij het delen is weggevallen. Is de nulhypothese niet waar, dan kan men vrij eenvoudig inzien dat ''<math>F''</math> statistisch grotere waarden zal aannemen. De nulhypothese wordt dus verworpen voor grote waarden van ''<math>F''.</math>
 
In ons voorbeeld is dus: ''<math>F=84/100=0.{,}84''.</math> Aangezien ''<math>F<1'',</math> is de overschrijdingskans ''<math>p>0.{,}5''</math>; dus is er geen reden om de nulhypothese te verwerpen.
 
== Tabel ==
| width="80" align="center" | kwadr.som
| width="80" align="center" | gem.kwadr.som
| width="80" align="center" | <math>F</math>
| width="80" align="center" | p-waarde
|-----
| width="80" align="center" | 168
| width="80" align="center" | 84
| width="80" align="center" | 0.,84
| width="80" align="center" | > 0.,5
|-----
| width="80" | error
 
Verkleinen we de variatie binnen de groepen als volgt:
<br />:Friezen: 180,181,182 <br />
<br />:Hollanders: 178,179,180 <br />
<br />:Limburgers: 170,171,172
 
dan blijven de groepsgemiddelden gelijk, en dus is weer:
:''<math>SSA'' = 3*\cdot(16+4+36)=168</math>
 
Maar nu is:
:''<math>SST'' = 9+16+25+1+4+9+49+36+25 = 174</math>
 
en
 
:''<math>SSE'' = 6.</math>
 
De verschillen tussen de groepen zijn nu veel groter dan binnen de groepen.
| width="80" align="center" | kwadr.som
| width="80" align="center" | gem.kwadr.som
| width="80" align="center" | <math>F</math>
| width="80" align="center" | p-waarde
|-----
| width="80" align="center" | 168
| width="80" align="center" | 84 || width="80" align="center" | 84
| width="80" align="center" | ≈0≈ 0
|-----
| width="80" | error || width="80" align="center" | 6
We bespreken een voorbeeld van een tweeweg-variantieanalyse.
 
In een onderzoek naar de opbrengst van tarwesoorten in relatie met de bodemgesteldheid, worden 4 soorten tarwe vergeleken elk groeiend op 3 grondsoorten. Er zijn dus twee factoren: soort op 4 niveaus en grond op 3 niveaus. De opbrengst <math>X</math> van een tarwe-aar wordt gemodelleerd als:
 
:<math>X_{ijk}= \mu+\alpha_i+\beta_j+ \alpha\beta_{ij}+U_{ijk}</math>.
 
Daarin is:
:<math>X_{ijk}</math> de opbrengst van aar nummer <math>k</math> van soort <math>i</math> op grond <math>j</math>
:<math>\mu</math> de verwachte opbrengst gemiddeld over alle soorten en gronden
:<math>\alpha_i</math> de bijdrage aan de opbrengst van soort <math>i</math>
:<math>\beta_j</math> de bijdrage aan de opbrengst van grond <math>j</math>
:<math>U_{ijk}</math> de eigen specifieke bijdrage van aar <math>k</math> van soort <math>i</math> op grond <math>j;</math> onderling onafhankelijk en <math>N(0,\sigma^2)-</math>verdeeld verondersteld.
De term
:<math>\alpha\beta_{ij}</math>
de zogenaamde interactieterm behoeft nog wat nadere verklaring. Niet altijd nemen we deze op in het model. Als er reden is om aan te nemen dat een bepaalde soort tarwe het beter doet op de ene grondsoort en een andere soort weer beter groeit op een andere grondsoort, is er sprake van interactie tussen de tarwesoort en de grondsoort. Om het effect daarvan in het model te beschrijven, nemen we de bovengenoemde interactieterm op. Het is gebruikelijk deze weer te geven met de symbolen van de interagerende factoren, hier dus α<math>\alpha</math> en β<math>\beta</math> (dus niet te lezen als het product van beide!)
 
De analyse van de variantie houdt nu in dat de totale kwadratensom als volgt uiteengelegd wordt (ook hier wordt weer door een . aangegeven dat over de betrokken index gemiddeld is):
 
:<math>SS_TSS_\text{T}=SS_ASS_\text{A}+SS_BSS_\text{B}+SS_\text{AB}+SS_ESS_\text{E}</math>,
 
waarin:
 
:<math>SS_TSS_\text{T}=\sum(X_{ijk}-X...)^2</math> de totale kwadratensom is
:<math>SS_ESS_\text{E}=\sum(X_{ijk}-X_{ij}.)^2</math> de kwadratensom van de residuen
:<math>SS_\text{AB}=\sum(X_{ij}.-X_i..-X._j.+X...)^2</math> de kwadratensom van de interactie
:<math>SS_ASS_\text{A}=\sum(X_i..-X...)^2</math> de kwadratensom van de factor A, "soort"
:<math>SS_BSS_\text{B}=\sum(X._j.-X...)^2</math> de kwadratensom van de factor B, "grond".
 
[[Categorie:Statistiek]]
25.455

bewerkingen