Regressieanalyse: verschil tussen versies
Verwijderde inhoud Toegevoegde inhoud
kGeen bewerkingssamenvatting |
Geen bewerkingssamenvatting |
||
Regel 1:
'''Regressie-analyse''' is een [[statistiek|statistische]] techniek voor het analyseren van [[gegeven]]s waarin (mogelijk) sprake is van een specifieke samenhang, aangeduid als ''regressie''. Deze samenhang houdt in dat de waarde van een [[stochastische variabele]] (de afhankelijke [[variabele]]), op een [[storingsterm]] na, afhangt van een of meer in principe instelbare vrij te kiezen variabelen. De afhankelijke variabele wordt meestal met
:<math>Y=f(x)+U
Hierin stelt
De [[functie (wiskunde)|functie]]
== Terminologie ==
; Onafhankelijke variabele: Deze variabele wordt ook ''
;
; Regressie: De terminologie "regressie", teruggang, is in dit verband eigenlijk misplaatst. De term werd voor het eerst gebruikt door de Engelse antropoloog [[Francis Galton]]. Hij merkte namelijk op dat kinderen uitzonderlijke eigenschappen van hun ouders overerven, doch dat er een tendens bestaat van "regressie naar het midden". De kinderen nemen de eigenschappen van hun ouders namelijk in afgezwakte mate over. Zo hebben lange ouders, lange kinderen, en korte ouders korte kinderen, maar steeds minder uitgesproken. Galton ontdekte dit verband door het toepassen van de [[Kleinste-kwadratenmethode|methode van de kleinste kwadraten]] en noemde ze naar het door hem bestudeerde fenomeen, regressie-analyse. Later verfijnde [[Karl Pearson]] de rekenmethode en behield de door Galton aangewende psycho-antropologische terminologie.
== Voorbeeld ==
Het benzineverbruik
:<math>Y=\alpha + \beta x^2 + U
Afhankelijk van omstandigheden als wegdek, verkeerssituatie, weersomstandigheden e.d., zal het benzineverbruik bij een zelfde snelheid toch nog variaties vertonen, die weergegeven worden als storingsterm <math>U</math>. Met de gegevens verkregen uit een aantal testritten (steekproef) zal men door middel van regressie-analyse de parameters schatten.
== Lineaire regressie ==
Er is sprake van lineaire regressie als de bovengenoemde functie <math>f</math> een [[lineaire functie]] is van de verklarende variabelen.
=== Enkelvoudige lineaire regressie ===
==== Eenvoudig ====
Het idee dat in de berekening wordt uitgewerkt is het volgende:
# De gemiddelde waarde van alle x-waarden zal een waarde voor <math>y</math> opleveren die dicht bij de gemiddelde y-waarde ligt. Het punt
# De waarde van de helling van de lijn ligt waarschijnlijk dicht bij de gemiddelde waarde van alle hellingen die ontstaan als elk meetpunt verbonden wordt met het hierboven aangegeven <math>(x_{\rm gemiddeld},y_{
De rekenkundige uitwerking van bovenstaande punten volgt hieronder.
==== Rekenkundige benadering ====
In het eenvoudigste geval is er slechts één verklarende variabele <math>x</math>. We spreken dan van enkelvoudige lineaire regressie. Het model voor <math>Y</math> wordt dan:
Meestal wordt de storingsterm <math>U</math> [[normale verdeling|normaal verdeeld]] verondersteld met [[Verwachting (wiskunde)|verwachting]] 0 en [[standaardafwijking]] σ.▼
▲:<math>Y=\alpha + \beta x + U\,</math>.
▲Meestal wordt de storingsterm U [[normale verdeling|normaal verdeeld]] verondersteld met [[Verwachting (wiskunde)|verwachting]] 0 en [[standaardafwijking]] σ.
We kunnen de parameter σ, die meestal ook onbekend is, ook direct zichtbaar maken in de relatie:
:<math>Y=\alpha + \beta x + \sigma U
waarin <math>U</math> nu standaardnormaal verdeeld is.
Met methoden uit de [[schatten|schattingstheorie]] worden de parameters van deze lineaire relatie geschat.
Omdat een schatting gebaseerd is op het resultaat van een [[steekproef]], kan het analyseren van enkelvoudige lineaire regressie opgevat worden als het bepalen van de best passende [[lijn (meetkunde)|lijn]] door de gegeven meetpunten. Wat "best passen" betekent is natuurlijk afhankelijk van het gehanteerde criterium. Een zo'n criterium is het "kleinste-kwadratencriterium". Daarvoor wordt de [[kleinste-kwadratenmethode]] gebruikt. Van lijn <math>y=a+bx</math> worden de coëfficiënten <math>a</math> en <math>b</math> zodanig berekend dat de som van de kwadraten van alle afwijkingen
:[[Bestand:Linreg.PNG]]
==== Theorie ====
We bekijken het geval van enkelvoudige lineaire regressie. Bij verschillende waarden <math>x_1,\
:<math>Y_k=\alpha + \beta x_k + \sigma U_k
waarin de <math>(U_k)</math> onderling onafhankelijk zijn en alle N(0,1)-verdeeld.
Het gaat er nu om schattingen te geven voor de parameters op basis van de steekproefuitkomst <math>(x_1,y_1),\
:<math>b=\frac{\sum\limits_{k=1}^{n}{(x_k- \overline{x})(y_k- \overline{y})}}{\sum\limits_{k=1}^{n}{(x_k-\overline{x})^2}}=\frac{n \sum{xy}-\sum{x}\sum{y}}{n \sum{x^2} - (\sum{x})^2}</math>
en
:<math>a=\overline{y} - b \overline{x}
Ook de parameter σ<sup>2</sup> kan geschat worden, en wel door:▼
:<math>s^2=\frac{1}{n-2}\sum_{k=1}^n(y_k - a - bx_k)^2</math>.
==== Herhalingen ====
Als bij dezelfde waarde van de verklarende variabele
:<math>Y_{kj} =\alpha + \beta x_k + \sigma U_{kj}\
waarin de <math>(U_kj)</math> weer onderling onafhankelijk zijn en alle N(0,1)-verdeeld.
(NB. De groepen zijn hier voor de eenvoud alle van gelijke omvang
In de formules voor de schattingen <math>a</math>
:<math>y_{k*}=\frac 1m \sum_{j=1}^m y_{kj}</math>
van die groep. Een schatting van
:<math>\frac{1}{n(m-1)}\sum_{k,j}(y_{kj} - y_{k*})^2</math>.
Regel 102 ⟶ 86:
=== Meervoudige lineaire regressie ===
Zijn er meer verklarende variabelen, maar is <math>f</math> wel een lineaire functie daarvan, dan spreken we van multipele (of meervoudige) lineaire regressie. Het model heeft de vorm:
:<math>Y=\beta_0 + \beta_1 x_1 + \cdots + \beta_m x_m + \sigma U</math>,
met <math>U</math> weer N(0,1)-verdeeld.
Ook hier worden met de kleinste-kwadratenmethode de parameters <math>(\beta_i)</math> geschat. De analyse verloopt geheel analoog aan het enkelvoudige geval. Het is alleen rekentechnisch ingewikkelder.
==== Theorie ====
Ook hier worden bij verschillende waarden <math>x_{11},\cdots, x_{1n}, \
:<math>Y_k=\beta_0 + \beta_1 x_{1k} + \cdots + \beta_m x_{mk} + \sigma U_k
waarin de <math>(U_k)</math> onderling onafhankelijk zijn en alle N(0,1)-verdeeld.
Het is overzichtelijker deze relaties met vectoren te noteren, waardoor ze in gedaante sterk vereenvoudigen.
:<math>Y=X\beta + \sigma U
Hierin is <math>Y=(Y_1
:<math>(1,x_{1k},\
De kleinste-kwadratenmethode voert tot de normaalvergelijkingen:
:<math>X'Y=X'Xb
In de gebruikelijke gevallen is de matrix <math>X'X
:<math>b=(X'X)^{-1}X'Y
== Voorbeeld ==
:{| class="wikitable" style="float:right;text-align:center"
|-
! temperatuur <math>x</math><br>(in °C)
! lengte <math>y</math><br>(in mm)
|-
| 20 || 1000,02
Regel 148 ⟶ 132:
Om de lineaire [[uitzettingscoëfficiënt]] van [[aluminium]] te bepalen, meet een [[fysicus]] de lengte van een aluminium staaf bij 4 verschillende temperaturen. Het resultaat staat hiernaast.
De gemeten lengte <math>y</math> is natuurlijk niet exact gelijk aan de "werkelijke" (verwachte) lengte; er zit nog een meetfout in en eventueel andere storingen. De verwachte lengte hangt lineair samen met de temperatuur <math>x</math>, daarom kunnen we voor de gemeten lengte <math>y</math> schrijven:
:<math>y=\alpha+\beta x + u</math>,
waarin de meetfout en de overige storingen zijn samengevat in <math>u</math>.
De [[parameter]]
Op basis van de boven gegeven steekproefuitkomst <math>(x_1,y_1),\
:<math>\sum{x}, \sum{y}, \sum{x^2}</math> en <math>\sum{xy}</math>.
Deze werden vroeger, bij "handmatige" berekening bepaald, door de tabel met de meetdata met geschikte kolommen uit te breiden en de kolomtotalen te berekenen:
:{|class="wikitable" width=30% style="text-align:right"
! waarneming<br>nr.|| <math>x</math> || <math>y</math> ||
|-
|style="text-align:center"|1 || 20 || 1000,02 || 400 || 20000,4
Regel 172 ⟶ 154:
|style="text-align:center"|4 || 120 || 1002,75 || 14400 || 120330,0
|-
▲|style="text-align:center"|Σ || 300 || 4005,55 || 28400 || 300570,0
|}
Als kleinste-kwadratenschatting <math>b</math> voor de gezochte parameter
:<math>b=\frac{n\sum{xy}-\sum{x}\sum{y}}{n\sum{x^2}- \sum{x}\sum{x}}=\frac{4\times300570
== Variantieanalyse ==
Vanwege de overeenkomstige analysemethodiek is het mogelijk een [[variantie-analyse]] op te vatten als een regressie-analyse. Als voorbeeld nemen we het ANOVA-model met één factor.
▲:<math>Y_{ij}=\mu_i + \sigma U_{ij}\,</math>,
▲waarin de <math>(U_{ij})\,</math> onderling onafhankelijk zijn en alle N(0,1)-verdeeld.
▲Dit model wordt ook vaak op equivalente wijze geschreven als;
▲:<math>Y_{ij}=\mu + \alpha_i+\sigma U_{ij}\,</math>,
met als extra voorwaarde:
▲:<math>\sum_{i}\alpha_i = 0\,</math>.
Door invoeren van zgn. dummy-variabelen <math>x_{ki}=\delta_{ki}</math> kunnen we het model ook schrijven als:
:<math>Y_{ij}= \mu_1 x_{1i} + \cdots + \mu_m x_{mi}+\sigma U_{ij}
waarin het de vorm heeft van een regressiemodel zonder intercept.
|