Factoranalyse: verschil tussen versies

Verwijderde inhoud Toegevoegde inhoud
Madyno (overleg | bijdragen)
taal
Regel 8:
Een zeer vereenvoudigd voorbeeld verduidelijkt een en ander.
 
Stel dat een groep proefpersonen van een vragenlijst twee vragen, A en B, beantwoordt. Uit analyse blijkt dat er een verband is tussen A en B. Dan kan dit komen door de invloed van A op B, door de invloed van B op A, of doordat er nog een andere onbekende variablevariabele C in het spel is. Met factoranalyse kan de onbekende [[variabele]] C opgespoord worden.
 
Duidelijk is te zien dat de beide variabelen A en B [[correlatie|gecorreleerd]] zijn. De lijn die goed bij de [[puntenwolk]] past geeft deze samenhang tussen A en B weer. De grootste variatie vindt plaats langs de lijn, de kleinste loodrecht daarop. De lijn stelt een nieuwe variabele, in dit geval factor genaamd, voor, die de plaats van A en B kan innemen. Een lage score op die variabele komt overeen met een lage score op zowel A als B en een hoge score met een hoge score op A en B. Het doel van factoranalyse is in dit geval het bepalen van deze lijn en daarmee de onbekende factor.
Regel 19:
Factoranalyse lijkt erg op [[hoofdcomponenten]]analyse. Wat in factoranalyse ''factoren'' genoemd wordt, wordt in hoofdcomponentenanslyse ''componenten'' genoemd. Het verschil tussen beide analysetechnieken is dat bij factoranalyse alleen naar de gemeenschappelijke variantie in de oorspronkelijke variabelen wordt gekeken, terwijl hoofdcomponentenanalyse ook naar de unieke variantie kijkt. In de meeste gevallen zijn de verschillen tussen beide methoden niet erg groot. Mochten er wel verschillen zijn, dan komt dit dus door de unieke variantie binnen (sommige) van de geobserveerde variabelen.
 
* Communaliteiten: de communaliteit van een geobserveerde variabele geeft het deel van de variantie weer dat door de factor voorspeld wordt. Omdat een communaliteit een proportie van de totale variantie is, kan deze in theorie slechts waarden tussen de 0 en 1 aannemen. Als vuistregel wordt doorgaans gehanteerd dat een variabele pas goed op een factor laadt als deze een communaliteit heeft van meer dan 0.45. In situaties waarin te weinig data aanwezig is, de startwaarden verkeerd gekozen zijn, of het aantal geëxtraeerdegeëxtraheerde factoren verkeerd is, kunnen in de praktijk variabelen met een communaliteiten die groter dan 1 is voorkomen. In een dergelijke situatie spreekt men van een Heywoodgeval. De gekozen factoroplossing moet in dat geval geïnterpreteerd worden als een problematische oplossing.
[[Afbeelding:3 factor screeplot.png|right|thumb|350px|[[Screeplot]] van 18 variabelen, waarbij 3 factoren een eigenwaarde hebben groter dan 1 (in de afbeelding boven de blauwe lijn). <BRbr />Op basis van de screeplot kan ook de 'elleboog' van de grafiek bepaald worden. In dit voorbeeld ligt die bij een 2-factor oplossing; de grafiek daalt vanaf dit punt veel minder scherp]]
* Aantal factoren: het aantal factoren kan onder meer op basis van de [[Eigenwaarde (wiskunde)|eigenwaarden]] van de factoren bepaald worden. De eigenwaarde geeft hierbij aan hoeveel additionele variantie door de extra factor wordt verklaard. Omdat het hier gestandardiseerdegestandaardiseerde variabelen betreft, voegt elke extra factor een variantie van 1 toe. Factoren met een eigenwaarde van minder dan 1 verklaren dus minder variantie dan ze zelf toevoegen. Deze [[vuistregel]] wordt ook wel het Kaiser-criterium genoemd of ook wel het Guttman-criterium. Nadeel van de vuistregel is de aanwezige kans op overschatting van het aantal factoren. Een alternatieve beslissingsregel voor het aantal factoren kan op basis van een zogenaamde [[screeplot]] verkregen worden (zie figuur). Hierbij wordt op basis van de grafiek gekeken waar de zogenaamde 'elleboog' van de eigenwaarden zich voordoet. Dit is het punt waarop de [[richtingcoëfficiënt]] van de lijn door de eigenwaarden een knik vertoont.
*Factorladingen zijn de [[correlatiecoëfficiënt]]en tussen de gemeten variabelen en de verklarende factoren.
[[Afbeelding:factor rotatie.jpg|right|thumb|350px|Links een factoroplossing die hoog laadt op beide factoren; Rechts de (oblique) geroteerde factoren, waarbij duidelijk wordt dat er twee factoren zijn]]
*Rotatie: Nadat factoren uit de correlatiematrix zijn geëxtraheerd is het mogelijk om de factoren te draaien met als doel de interpretatie van de factoren te vergemakkelijken. Factorrotatie verandert niets aan de oplossing, maar wijst combinaties van de oorspronkelijke factoren als nieuwe factoren aan. Vooral wanneer de factoren niet grafisch, maar in tabelvorm geïnterpreteerd worden, werkt rotatie vaak verhelderend. DraaiïngDraaiing van de matrix kan zo gedaan worden dat de correlatie tussen variabelen die in de oorspronkelijke matrix van factorladingen laag was, nog lager wordt, en correlatie tussen factorladingen die hoog waren, nog hoger wordt. Er zijn veel methoden om een factorrotatie uit te voeren, onderverdeeld in [[Orthogonaal|orthogonale]] en [[oblique]] rotaties; bij het eerste type worden de verschillende factoren strikt onafhankelijk van elkaar verondersteld, bij oblique methoden kunnen de factoren gecorreleerd zijn. Een aantal specifieke rotatiemethoden is opgenomen in de populaire statististischestatistische softwarepakketten zoals SPSS en SAS. Voorbeelden van rotatiemethoden zijn Varimax, Direct Oblimin, Quartimax, Equamax en Promax.
*Factorscores: De hypothetische scores van individuen op de gevonden factoren. Deze worden uitgedrukt als [[Z-scores]], d.w.z. met een [[standaarddeviatie]] van 1 en een [[verwachting]] 0.