Distantie en similariteit

Met distantie en similariteit wordt de mate van verschil en van overeenkomst in kenmerken bedoeld zoals deze berekend kunnen worden op grond van de gemeten variabelen (attributen of kenmerken) van multivariate objecten zoals steekproeven, vegetatieopnamen, vogeltellingen.

Distanties of dissimilariteiten zijn de verschillen die bepaald worden op grond van waarden (of responsies) van de variabelen of attributen bij verschillende objecten. De meest bekende distantie is de euclidische afstand.

Similariteiten zijn juist de overeenkomsten tussen variabelen of tussen objecten. Dergelijke gegevens ten behoeve van de berekening worden weergegeven in tabellen (matrix) met rijen en kolommen voor de variabelen en de objecten. De meest bekende similariteit-maten zijn de correlatiecoëfficienten.

GebruikBewerken

Distanties en similariteiten worden wel gebruikt bij multivariate statistische methoden als clusteranalyse en bij ordinatie. Voorafgaand aan de gegevensverwerking is het vaak nodig eerst de distanties of similariteiten tussen de objecten te berekenen. Bij een dergelijke berekening gaan de oorspronkelijke data van de variabelen verloren. Er zijn ook 'directe' analysemethoden beschikbaar, waar deze voorafgaande berekeningen niet nodig zijn.

IndexenBewerken

Tabel met objecten (kolommen), attributen (rijen) en met responsies (cellen)

variabelen
m objecten, monsters rand-
totalen
Object1 Object2 Object3 Object4 ... Objectk ... Objectm
n
afhankelijke
variabelen

voor de
attributen
Y1 y11 y12 y13 y14 ... y1k .. y1m  
Y2 y21 y22 y23 y24 ... y2k ... y2mk  
Yi yi1 yi2 yi3 yi4 ... yik ... yim  
Yj yj1 yj2 yj3 yj4 ... yjk ... yjm  
Yn yn1 yn2 yn3 yn4 ... ynk ... ynm  
randtotalen
van de →
monsters
           

Voor het berekenen van deze "indices" of "coëfficiënten" voor distantie en similariteit zijn een groot aantal verschillende formules beschikbaar. Daarnaast kunnen similariteiten vaak worden omgerekend tot distanties en omgekeerd. De rol van objecten en variabelen kan in sommige gevallen worden omgewisseld, zodat ook de distanties en similariteiten tussen de objecten kunnen worden berekend.

De keuze van de index voor distantie of similariteit hangt af van de meetschaal van de responsies.

    • kwantitatieve meetschaal, ook wel continu, kardinaal, numeriek, metrisch
      • als er ook negatieve waarden zijn, kunnen bepaalde indices niet gebruikt worden
      • niet-negatieve waarden, zoals tellingen, frequenties
    • kwalitatieve meetschaal, ook wel categorisch
      • ordinale variabelen moet worden getransformeerd voordat de berekening van de indices mogelijk is
      • nominale variabelen moet worden getransformeerd voordat de berekening van de indices mogelijk is
      • binaire variabelen worden omgezet tot 0/1 waarden (= afwezig/aanwezig)

Binaire variabelenBewerken

Een binaire variabele is een variabele die slechts twee, elkaar uitsluitende waarden kan aannemen, zoals 0 - 1, Ja - Nee, Positief - Negatief, of Aanwezig - Afwezig. Bij vergelijking van objecten met binaire variabelen kunnen de formules vereenvoudigd worden, afhankelijk van het al of niet meerekenen van de 'dubbel-afwezige' overeenkomsten.

Similariteit bij objecten met binaire variabelen
Vergelijking van twee objecten i en j met binaire variabelen met meerekenen van de 'dubbel-afwezigen'
Objecten Object(j) Object(j)
waarden 1
(+, Aanwezig, Ja)
0
(—, Afwezig, Nee)
randtotalen waarden 1
(+, Aanwezig, Ja)
0
(—, Afwezig, Nee)
randtotalen
Object(i) 1
(+, Aanwezig, Ja)
Σ [ yik • yjk) Σ [ yik • (1 - yjk) ] Σ yik 1
(+, Aanwezig, Ja)
A B A + B
0
(—, Afwezig, Nee)
Σ [ (1 - yik) • yjk ] Σ [ (1 - yik) • (1 - yjk) ] Σ (1 - yik) 0
(—, Afwezig, Nee)
C D C + D
randtotalen Σ yjk Σ (1 - yjk) N randtotalen A + C B + D A + B + C + D
Vergelijking van twee objecten i en j met binaire variabelen met uitsluiting van de 'dubbel-afwezigen'
Objecten Object(j) Object(j)
waarden 1
(+, Aanwezig, Ja)
0
(—, Afwezig, Nee)
randtotalen waarden 1
(+, Aanwezig, Ja)
0
(—, Afwezig, Nee)
randtotalen
Object(i) 1
(+, Aanwezig, Ja)
Σ [ yik • yjk ] Σ [ yik • (1 - yjk) ] Σ yik 1
(+, Aanwezig, Ja)
c a - c a
0
(—, Afwezig, Nee)
Σ [ (1 - yik) • yjk ] ø
('dubbel-afwezig')
0
(—, Afwezig, Nee)
b - c ø
('dubbel-afwezig')
b - c
randtotalen Σ yjk m randtotalen b a - c a + b - c

Onder 'dubbel-afwezig' verstaat men de situatie dat beide binaire variabelen de waarde 0 (—, Afwezig, Nee) hebben. In sommige gevallen hebben deze geen zinvolle betekenis. Een voorbeeld is een ecologische gegevenstabel met abundanties van aangetroffen soorten. Het ontbreken van soorten in twee te vergelijken objecten (bijvoorbeeld tellingen, monsters, vegetatieopnamen) geeft geen zinvolle informatie.

SimilariteitenBewerken

Voorbeelden van similariteiten zijn correlaties en cosinus. Correlatiecoëfficiënten nemen waarden aan van -1 tot +1, waarbij bij de hoogste waarde staat voor de hoogste mate van overeenkomst (similariteit) en de kleinste distantie (dissimilariteit). Om als distantiemaat te kunnen fungeren moeten ze dus getransformeerd worden.

afko naam formule waarin: range
r Pearsons
product-moment
correlatiecoëfficiënt

 
(ALGEMENE FORMULE)
  rik = correlatie
yik = waarde voor object i en variabele k
yjk = waarde voor object j en variabele k
m = aantal variabelen
[-1,+1]
rS Spearmans
rangcorrelatiecoëfficiënt
  yik en yjk zijn rangnummers
binnen de variabelen Yi en Yj
[-1,+1]
phi, φ puntcorrelatie,
associatiecoëfficiënt
  yik en yjk zijn presenties: 0 of 1 [-1,+1]
Cos cosinus van de hoek α
tussen de vectoren
door de oorsprong
 
voor binaire variabelen wordt de formule:  
rik = correlatie
yik = waarde voor object i en variabele k
yjk = waarde voor object j en variabele k
m = aantal variabelen
[-1,+1]

Een andere correlatiecoëfficiënt is de punt-biseriële correlatiecoëfficiënt, evenals de puntcorrelatie een variant van de Pearsons product-momentcorrelatiecoëfficiënt.

Overige maten voor similariteit, zoals de coëfficiënten van Jaccard, Sörensen, Whittaker en Motyka worden besproken bij de distanties.

DistantiesBewerken

Voorbeelden van distanties

afkorting naam coëfficiënt formule waarin: range
MD Minkowski distance,
 geïnduceerd door de Lr-norm
 
(ALGEMENE FORMULE)
  MDij = distantie tussen objecten i en j
yik = waarde voor object i en variabele k
yjk = waarde voor object j en variabele k
m = aantal variabelen
r is een constante (1 of 2)
CBD City Block Distance,
Manhattan-metriek
  yik en yjk zijn numerieke waarden
m = aantal variabelen
r=1
[0, ∞)
ED Euclidische afstand   'yik en yjk zijn numerieke waarden
m = aantal variabelen
r=2
[0, ∞)
MCD Mean Character Distance   yik en yjk zijn numerieke waarden
m = aantal variabelen
r=1
[0, ∞)
GE Gemiddelde euclidische afstand
(euclidische vorm van MCD)
  yik en yjk zijn numerieke waarden
m = aantal variabelen
r=2
[0, ∞)
DM Distance Metric
 
(ALGEMENE FORMULE)
  yik en yjk zijn numerieke waarden
m = aantal variabelen
r is een constante (1 of 2)
[0, 1]
CM Canberra Metric   yik en yjk zijn numerieke waarden
m = aantal variabelen
r=1
[0, ∞)
HM Hodson's Metric,
euclidische vorm van CM
  yik en yjk zijn numerieke waarden
m = aantal variabelen
r=2
[0, ∞)
CD Coefficient of Divergence   yik en yjk zijn numerieke waarden
m = aantal variabelen
r=2
[0, 1]
M distantie naar Motyka,
distantie naar Czekanowsky,
Percentage Dissimilarity
kwantitatieve vorm van Sørensen
  yik en yjk zijn numerieke waarden
m = aantal variabelen
[0, 1]
W distantie naar Whittaker,
kwantitatieve vorm van Jaccard
  yik en yjk zijn numerieke waarden
m = aantal variabelen
[0, 1]
H Heterogeniteit   yik en yjk zijn numerieke waarden
m = aantal variabelen
[0, ∞)
  a, b en c: zie hierbovenstaande tabel
J distantie naar Jaccard   a, b en c: zie hierbovenstaande tabel [0, 1]
S distantie naar Sørensen,
distantie naar Dice,
1-Coefficient of Community
  a, b en c: zie hierbovenstaande tabel [0, 1]
SM' complement van
Simple Matching Coefficient
  A, B, C en D: zie hierbovenstaande tabel [0, 1]
YC Yule-Coefficient   A, B, C en D: zie hierbovenstaande tabel [-1, 1]

DistantiematrixBewerken

Een distantiematrix is een vierkante, symmetrische matrix met voor elk paar van objecten de onderlinge distanties. Een dergelijke matrix is symmetrisch, omdat de distantie tussen objecten a en b gelijk is aan de distanties tussen de objecten b en a. Op de diagonaal staan de distanties van de objecten tot zichzelf: 0.

Distantiematrices worden onder andere gebruikt bij ordinatietechnieken op basis van een distantiematrix[1] , zoals polaire ordinatie (PO), principal coordinates analysis (PCoA of "metric multidimensional scaling") en nonmetric multidimensional scaling (NMDS).

Een matrix met similariteiten in plaats van distanties wordt ook wel "Resemblance Matrix" genoemd.