Discriminantanalyse

Discriminantanalyse is in de statistiek een beslissingsprocedure om van een nieuwe waarneming uit te maken bij welke van een aantal gegeven verzamelingen waarnemingen deze het beste past. In een eenvoudig geval is van twee populaties van beide een steekproef bekend. Van een nieuwe waarneming is weliswaar bekend dat deze uit een van de beide populaties afkomstig is, maar niet uit welke. Met discriminantanalyse kan een criterium worden berekend op grond waarvan de waarneming bij een van de populaties kan worden ingedeeld.

Discriminantanalyse werd in 1936 voor het eerst door RA Fisher beschreven in zijn The use of multiple measurements in taxonomic problems.

Voorbeeld bewerken

In een archeologisch onderzoek zijn van twee stammen een groot aantal skeletten gevonden. Aan deze skeletten zijn allerlei metingen gedaan, zoals de breedte van de schedel, de lengte van de bovenarm, de lengte van het dijbeen, enzovoort. Deze metingen worden weergegeven in een vector   voor de ene stam en   voor de andere stam. Binnen een stam is er natuurlijk heel wat variatie in de afmetingen, maar ook tussen de beide stammen is er verschil. De situatie laat zich modelleren door twee meerdimensionale normale verdelingen met gelijke covariantiematrix, maar met verschillende vectoren met verwachtingswaarden. Om de gedachten te bepalen kunnen we denken aan twee puntenwolken in de vorm van twee gelijkvormige, maar ten opzichte van elkaar verschoven, ellipsoïden.

Van een enkel skelet is niet bekend of het tot de ene, dan wel tot de andere stam behoort. Het bijbehorende punt met metingen bevindt zich ergens te midden van de punten van beide puntenwolken. Met discriminantanalyse kan in dit geval een lineaire functie van de metingen worden bepaald, op grond waarvan het skelet aan een van beide stammen wordt toegewezen. Het criterium wordt zo bepaald, dat het risico van verkeerde toewijzing in bepaalde zin minimaal is.