Mahalanobis-afstand

(Doorverwezen vanaf Mahalonobis-afstand)

De mahalanobis-afstand is binnen de statistiek een afstandsmaat, ontwikkeld in 1936[1] door de Indiase wetenschapper Prasanta Chandra Mahalanobis. De maat is gebaseerd op correlaties tussen variabelen en het is een bruikbare maat om samenhang tussen twee multivariate steekproeven te bestuderen. De maat verschilt met de euclidische afstand doordat de mahalanobis-afstand afhangt van de correlaties in de dataset. Hierdoor is de maat schaal-invariant.

Definitie bewerken

De mahalanobis-afstand   tussen de realisaties van twee als kolomvectoren opgevatte vectoren   en   uit verdelingen met gelijke covariantiematrix   is gedefinieerd door:

 

De mahalanobis-afstand   van de realisatie van een als kolomvector opgevatte vector   tot een multivariate verdeling   met vector van verwachtingswaarden   en covariantiematrix   is gedefinieerd als de mahalanobis-afstand tot   dus:

 


Anders dan de gewone euclidische afstand, meet de mahalanobis-afstand de afstand als het ware in termen van de spreidingen in de verschillende richtingen.

Verband met normale verdeling bewerken

De mahalanobis-afstand vindt zijn oorsprong in de multivariate normale verdeling. De dichtheid daarvan wordt gegeven door:

 

Een punt   uit de verdeling ligt dus dichter bij het midden   naarmate de exponent groter is, dus in essentie naarmate de uitdrukking

 

kleiner is. Omdat deze uitdrukking kwadratisch is in   ligt het voor de hand om voor de afstand de vierkantswortel te gebruiken.

Toepassingen bewerken

Mahalanobis ontwikkelde deze metriek na het bestuderen van een probleem waarbij overeenkomsten tussen schedelmetingen bestudeerd moesten worden[2], een klassiek voorbeeld in de discriminantanalyse. De metriek wordt verder toegepast in clusteranalyse, classificatiemethoden en multidimensionaal schalen. De mahalanobis-afstand is nauw verbonden met Hotellings T-kwadraat en Cooks afstand.