Distantie en similariteit: verschil tussen versies

Verwijderde inhoud Toegevoegde inhoud
→‎Distanties: in tabelvorm
→‎Indexen: aanpassing
Regel 8:
 
== Indexen ==
{|class="wikitable" style="float:right;text-align:center;font-size:85%;line-height:90%;" <!-- float:right; -->
|+''Tabel met objecten (kolommen), attributen (rijen) en met responsies (cellen)''
|-
|colspan=2 rowspan=2|<br>'''variabelen''' ↓
!colspan=8|''m'' objecten, monsters
|rowspan=2|rand-<br>totalen<br>↓
|-
!Object{{sub|1}}!!Object{{sub|2}}!!Object{{sub|3}}!!Object{{sub|4}}!!...!!Object{{sub|k}}!!...!!Object{{sub|m}}
|-
!rowspan=8|''n''<br>afhankelijke<br>variabelen<br><br>voor de<br>attributen
!Y{{sub|1}}
|y{{sub|11}}||y{{sub|12}}||y{{sub|13}}||y{{sub|14}}||...||y{{sub|1k}}||..||y{{sub|1m}}
|<math>\sum_{k=1}^{m} y_{1k}</math>
|-
!Y{{sub|2}}
|y{{sub|21}}||y{{sub|22}}||y{{sub|23}}||y{{sub|24}}||...||y{{sub|2k}}||...||y{{sub|2mk}}
|<math>\sum_{k=1}^{m} y_{2k}</math>
|-
!...
|...||...||...||...||...||...||...||...
|...
|-
!Y{{sub|i}}
|y{{sub|i1}}||y{{sub|i2}}||y{{sub|i3}}||y{{sub|i4}}||...||y{{sub|ik}}||...||y{{sub|im}}
|<math>\sum_{k=1}^{m} y_{ik}</math>
|-
!...
|...||...||...||...||...||...||...||...
|...
|-
!Y{{sub|j}}
|y{{sub|j1}}||y{{sub|j2}}||y{{sub|j3}}||y{{sub|j4}}||...||y{{sub|jk}}||...||y{{sub|jm}}
|<math>\sum_{k=1}^{m} y_{jk}</math>
|-
!...
|...||...||...||...||...||...||...||...
|...
|-
!Y{{sub|n}}
|y{{sub|n1}}||y{{sub|n2}}||y{{sub|n3}}||y{{sub|n4}}||...||y{{sub|nk}}||...||y{{sub|nm}}
|<math>\sum_{k=1}^{m} y_{nk}</math>
|-
|colspan=2|randtotalen →
|<math>\sum_{j=1}^{n} y_{j1}</math>
|<math>\sum_{j=1}^{n} y_{j2}</math>
|<math>\sum_{j=1}^{n} y_{j3}</math>
|<math>\sum_{j=1}^{n} y_{j4}</math>
|...
|<math>\sum_{j=1}^{n} y_{jk}</math>
|...
|<math>\sum_{j=1}^{n} y_{jm}</math>
|
|}
Voor het berekenen van deze "[[Index (formule)|indices]]" of "[[coëfficiënt]]en" voor distantie en similariteit zijn een groot aantal verschillende formules beschikbaar. Daarnaast kunnen similariteiten vaak worden omgerekend tot distanties en omgekeerd. De rol van objecten en variabelen kan in sommige gevallen worden omgewisseld, zodat ook de distanties en similariteiten tussen de objecten kunnen worden berekend.
 
Regel 22 ⟶ 75:
{{Stamboom2/einde}}
 
=== Similariteiten ===
{| class="wikitable" style="font-size:95%;line-height:95%;"
Voorbeelden van similariteiten zijn correlaties en cosinus. Correlatiecoëfficiënten nemen waarden aan van -1 tot +1, waarbij bij de hoogste waarde staat voor de hoogste mate van overeenkomst (similariteit) en de kleinste distantie (dissimilariteit). Om als distantiemaat te kunnen fungeren moeten ze dus getransformeerd worden.
|+ Tabel met objecten (kolommen), attributen (rijen) en met responsies (cellen)
|-
| colspan="2" |
! colspan="8" | <center>''m'' objecten, monsters</center>
|-
| colspan="2" | <center>'''variabelen''' ↓</center>
! Object_1 !! Object_2 !! Object_3 !! Object_4 !! ... !! Object_k !! ... !! Object_m
|-
! rowspan="10" | ''n''<br>attributen,<br><br>afhankelijke<br>variabelen
! var_1
| a{{sub|11}} || a{{sub|12}} || a{{sub|13}} || a{{sub|14}} || ... || a{{sub|1k}} || ... || a{{sub|1m}}
|-
! var_2
| a{{sub|21}} || a{{sub|22}} || a{{sub|23}} || a{{sub|24}} || ... || a{{sub|2k}} || ... || a{{sub|2mk}}
|-
! var_3
| a{{sub|31}} || a{{sub|32}} || a{{sub|33}} || a{{sub|34}} || ... || a{{sub|3k}} || ... || a{{sub|3m}}
|-
! ...
| ... || ... || ... || ... || ... || ... || ... || ...
|-
! var_i
| a{{sub|i1}} || a{{sub|i2}} || a{{sub|i3}} || a{{sub|i4}} || ... || a{{sub|ik}} || ... || a{{sub|im}}
|-
! ...
| ... || ... || ... || ... || ... || ... || ... || ...
|-
! var_j
| a{{sub|j1}} || a{{sub|j2}} || a{{sub|j3}} || a{{sub|j4}} || ... || a{{sub|jk}} || ... || a{{sub|jm}}
|-
! ...
| ... || ... || ... || ... || ... || ... || ... || ...
|-
! var_n
| a{{sub|n1}} || a{{sub|n2}} || a{{sub|n3}} || a{{sub|n4}} || ... || a{{sub|nk}} || ... || a{{sub|nm}}
|}
 
{|class="wikitable sortable" style="text-align:left;font-size:85%;line-height:100%;" <!-- width=100% vatop -->
Bij vergelijking van twee binaire variabelen is het van belang in welke frequentie de combinaties deze presentie optreden:
!afko
{| class="wikitable" style="font-size:85%;line-height:90%;text-align:center;" <!-- width="100%" -->
!naam
| colspan="2" |
!class="unsortable"|formule
! colspan="2" | variabele i
!class="unsortable"|waarin:
! totaal
!range
|-
!r
|
|[[Correlatiecoëfficiënt#Pearsons product-momentcorrelatiecoëfficiënt|Pearsons<br>product-moment<br>correlatiecoëfficiënt]]<br>&nbsp;
! waarden: || &nbsp;'''1'''&nbsp; || &nbsp;'''0'''&nbsp; ||
<center><u>''(ALGEMENE FORMULE)''</u></center>
|<math>r_{ij} = \frac{m \cdot \sum_{k=1}^{m} y_{ik} \cdot y_{jk} - \sum_{k=1}^{m} y_{ik} \cdot \sum_{k=1}^{m} y_{jk}}{\sqrt {m \cdot \sum_{k=1}^{m} y_{ik}^2 - (\sum_{k=1}^{m} y_{ik})^2} \cdot \sqrt {m \cdot \sum_{k=1}^{m} y_{jk}^2 - (\sum_{k=1}^{m} y_{jk})^2}}</math>
|''r{{sub|ik}}'' = correlatie<br>''y{{sub|ik}}'' = waarde voor object ''i'' en variabele ''k''<br>''y{{sub|jk}}'' = waarde voor object ''j'' en variabele ''k''<br>''m'' = aantal variabelen
|[-1,+1]
|-
!r{{sub|S}}
! rowspan="2" | variabele j
|[[Spearmans rangcorrelatiecoëfficiënt]]
! &nbsp;'''1'''&nbsp;
|<math>\rho_{ij} = 1 - \frac {6 \cdot \sum_{k=1}^{m} (y_{ik} - y_{jk}) ^2}{m \cdot (m^2 - 1)}</math>
| &nbsp;'''c''' || &nbsp;''b-c'' || '''b'''
|''y{{sub|ik}}'' en ''y{{sub|jk}}'' zijn rangnummers<br>binnen de variabelen ''Y{{sub|i}}'' en ''Y{{sub|j}}''
|[-1,+1]
|-
!phi, φ
! &nbsp;'''0'''&nbsp;
|puntcorrelatie,<br>associatiecoëfficiënt
| &nbsp;''a-c'' || &nbsp;''m-a-b+c'' || ''m-b''
|<math>\varphi_{ij} = \frac{bc-ad}{\sqrt{(a+b)(a+c)(b+c)(b+d)}}</math>
|''y{{sub|ik}}'' en ''y{{sub|jk}}'' zijn presenties: 0 of 1<br>
<math>a = \sum_{k=1}^{m} {y_{ik}}</math>, <math>b=\sum_{k=1}^{m} {y_{jk}}</math>, <math>c = \sum_{k=1}^{m} ({y_{ik} \cdot y_{jk})}</math>
|[-1,+1]
|-
!Cos
! totaal !!
|[[Sinus en cosinus|cosinus]]<br>van de hoek &alpha; tussen<br>de vectoren door de oorsprong
| '''a''' || ''m-a'' || '''m'''
|<math>Cos_{ij} = \frac {\sum_{k=1}^{m} (y_{ik} \cdot y_{jk})} {\sqrt {\sum_{k=1}^{m} (y_{ik}) \cdot \sum_{k=1}^{m}(y_{jk})}}</math><br>voor binaire variabelen wordt de formule: <math>Cos_{ij} = \frac {c} {\sqrt{a \cdot b}}</math>
|''r{{sub|ik}}'' = correlatie<br>''y{{sub|ik}}'' = waarde voor object ''i'' en variabele ''k''<br>''y{{sub|jk}}'' = waarde voor object ''j'' en variabele ''k''<br>''m'' = aantal variabelen
|[-1,+1]
|}
met:
:''c'': frequentie dat a{{sub|ik}} = 1 en a{{sub|jk}} = 1
:''a'': frequentie dat a{{sub|ik}} = 1
:''b'': frequentie dat a{{sub|jk}} = 1
:''m'': totaal aantal objecten
 
=== Similariteiten ===
Voorbeelden van similariteiten zijn correlaties en cosinus. Correlatiecoëfficiënten nemen waarden aan van -1 tot +1, waarbij bij de hoogste waarde staat voor de hoogste mate van overeenkomst (similariteit) en de kleinste distantie (dissimilariteit). Om als distantiemaat te kunnen fungeren moeten ze dus getransformeerd worden.
 
[[Correlatiecoëfficiënt#Pearsons product-momentcorrelatiecoëfficiënt|Pearsons product-momentcorrelatiecoëfficiënten]]: <math>r_{ij} = \frac{m \cdot \sum_{k=1}^{m} a_{ik} \cdot a_{jk} - \sum_{k=1}^{m} a_{ik} \cdot \sum_{k=1}^{m} a_{jk}}{\sqrt {m \cdot \sum_{k=1}^{m} a_{ik}^2 - (\sum_{k=1}^{m} a_{ik})^2} \cdot \sqrt {m \cdot \sum_{k=1}^{m} a_{jk}^2 - (\sum_{k=1}^{m} a_{jk})^2}}</math> met<br>r{{sub|ik}} = correlatie<br>a{{sub|ik}} = waarde voor object i en variabele k<br>a{{sub|jk}} = waarde voor object j en variabele k<br>m = aantal variabelen
 
* r= productmoment-correlatiecoëfficiënt
 
* r{{sub|S}}= [[Spearmans rangcorrelatiecoëfficiënt]] met<br>a{{sub|ik}} en a{{sub|jk}} zijn rangnummers per variabele<br>gebruikelijke formule: <math>\rho_{ij} = 1 - \frac {6 \cdot \sum_{k=1}^{m} (a_{ik} - a_{jk}) ^2}{m \cdot (m^2 - 1)}</math>
 
* [[Phi (letter)|phi, φ]]= puntcorrelatie, associatiecoëfficiënt met<br>a{{sub|ik}} en a{{sub|jk}} zijn presenties: 0 of 1<br>gebruikelijke formule: <math>\varphi_{ij} = \frac{bc-ad}{\sqrt{(a+b)(a+c)(b+c)(b+d)}}</math>
 
* [[Sinus en cosinus|cosinus]] van de hoek &alpha; tussen de vectoren door de oorsprong<br>formule: <math>Cos_{ij} = \frac {\sum_{k=1}^{m} (a_{ik} \cdot a_{jk})} {\sqrt {\sum_{k=1}^{m} (a_{ik}) \cdot \sum_{k=1}^{m}(a_{jk})}}</math><br>voor binaire variabelen wordt de formule: <math>Cos_{ij} = \frac {c} {\sqrt{a \cdot b}}</math>
 
Overige maten, zoals de coëfficiënten van Jaccard, Sörensen, Whittaker en Motyka worden besproken bij de distanties.