Share to: share facebook share twitter share wa share telegram print page

 

Distantie en similariteit

Met distantie en similariteit wordt de mate van verschil en van overeenkomst in kenmerken of attributen van multivariate objecten bedoeld zoals deze berekend kunnen worden op grond van de gemeten variabelen, dus van attributen of kenmerken, van multivariate objecten zoals steekproeven, vegetatieopnamen, vogeltellingen.

Distanties of dissimilariteiten zijn de verschillen die bepaald worden op grond van waarden (of responsies) van de variabelen of attributen bij verschillende objecten. De meest bekende distantie is de euclidische afstand.

Similariteiten zijn juist de overeenkomsten tussen variabelen of tussen objecten. Dergelijke gegevens ten behoeve van de berekening worden weergegeven in tabellen (matrix) met rijen en kolommen voor de variabelen en de objecten. De meest bekende similariteit-maten zijn de correlatiecoëfficienten.

Gebruik

Distanties en similariteiten worden wel gebruikt bij multivariate statistische methoden als clusteranalyse en bij ordinatie van biologische en ecologische gegevens.

Voorafgaand aan de gegevensverwerking is het vaak nodig eerst de distanties of similariteiten tussen de objecten te berekenen, na voorafgaande standaardisatie of normalisatie van de basisgegevens.

Bij een dergelijke berekening gaan de oorspronkelijke data van de variabelen verloren.

Er zijn ook 'directe' analysemethoden beschikbaar, waar deze voorafgaande berekeningen niet nodig zijn.

Indexen

n×m tabel met m objecten (kolommen), n attributen (rijen) en responsies (cellen)
m objecten (monsters, samples) randtotalen
variabelen
Object1 Object2   Objectf   Objectg   Objectm
n
afhankelijke
variabelen

t/m
Variabele1
Variabele2
 
Variabelei
 
Variabelej
yj1
 
Variabelen
randtotalen voor
de objecten

Voor het berekenen van deze indices of coëfficiënten voor distantie en similariteit zijn een groot aantal verschillende formules beschikbaar. Daarnaast kunnen similariteiten vaak worden omgerekend tot distanties en omgekeerd. De rol van objecten en variabelen kan in sommige gevallen worden omgewisseld, zodat niet alleen de distanties en similariteiten tussen de objecten kunnen worden berekend, maar ook tussen variabelen.

De keuze van de index voor distantie of similariteit hangt af van de meetschaal van de responsies. Men onderscheidt de volgende niveaus waarop gemeten wordt:

  • kwalitatief, ook wel categorisch:
    • nominaal: benoemen (niet-rangschikbaar kenmerk)
    • ordinaal: ordening (rangschikbaar kenmerk)
  • binair (kwalitatief of kwantitatief te interpreteren met: waar/onwaar, 0/1 , ja/nee, aan-/afwezig)
  • kwantitatief, (kardinaal, numeriek, metrisch, met: natuurlijk getallen, gehele getallen, reële getallen)
    • interval: gelijke intervallen;
    • ratio: intervallen met een betekenisvol nulpunt.

Daarbij zijn de bovenstaande niveaus in de genoemde volgorde van toenemende complexiteit en omvat een volgend genoemd niveau steeds de eerdere. De circulaire variabelen passen niet in bovenstaand overzicht. Voorbeelden zijn: maand van het jaar, seizoen, tijdstip op de dag, getijde, windrichting. De circulaire variabele moet eerst getransformeerd worden naar twee variabelen. Voorbeeld: 'Getijde' kan getransformeerd worden in de variabelen 'Tijd na laatste hoog water' en 'Tijd na laatste laag water'.

Waarnemingen binaire variabelen

Een binaire variabele is een variabele die slechts twee, elkaar uitsluitende waarden kan aannemen, zoals 1 — 0, Ja - Nee, Positief - Negatief, of Aanwezig - Afwezig. Bij vergelijking van objecten met binaire variabelen worden de waarnemingen zo nodig getransformeerd naar 0 — 1 waarden en kunnen de formules vereenvoudigd worden, afhankelijk van het al of niet meerekenen van de 'dubbel-afwezige' (dubbel 0, dubbel Afwezig, dubbel Nee) overeenkomsten.

Vergelijking van twee objecten i en j met binaire variabelen
met meerekenen van de 'dubbel-afwezigen'
objecten object(j) randtotalen
waarden
1
(+,
Aanwezig,
Ja)
0
(—,
Afwezig,
Nee)
object(i) 1
(+, Aanwezig, Ja)
A B A + B
0
(—, Afwezig, Nee)
C D C + D
randtotalen → A + C B + D N = A + B + C + D
 
met uitsluiting van de 'dubbel-afwezigen'
objecten object(j) randtotalen
waarden
1
(+,
Aanwezig,
Ja)
0
(—,
Afwezig,
Nee)
object(i) 1
(+, Aanwezig, Ja)
c a - c a
0
(—, Afwezig, Nee)
b - c ø
('dubbel-Afwezig')
b - c
randtotalen → b a - c m = a + b - c
waarin: en hebben de waarden 0 of 1
A = , B = ,
C = en D =
 
waarin: en hebben de waarden 0 of 1
a = , b = en c =

Onder 'dubbel-afwezig' verstaat men de situatie dat beide binaire variabelen de waarde 0 (—, Afwezig, Nee) hebben. In sommige gevallen hebben deze geen zinvolle betekenis.

Nominale en ordinale variabelen kunnen voor de verschillende waarden getransformeerd worden naar binaire variabelen. Een voorbeeld is een ecologische gegevenstabel met abundanties van aangetroffen soorten. Het ontbreken van soorten in twee te vergelijken objecten (bijvoorbeeld tellingen, monsters, vegetatieopnamen) geeft meestal geen zinvolle informatie.

Similariteiten

Voorbeelden van similariteiten zijn correlaties en cosinus. Correlatiecoëfficiënten nemen waarden aan van -1 tot +1, waarbij bij de hoogste waarde staat voor de hoogste mate van overeenkomst (similariteit) en de kleinste distantie (dissimilariteit). Om als distantiemaat te kunnen fungeren moeten ze dus getransformeerd worden.

afko. naam formule waarin: range
Pearsons
product-moment
correlatiecoëfficiënt

 
(algemene formule)
= correlatie
= waarde voor object i en variabele k
= waarde voor object j en variabele k
m = aantal waarden
[-1,+1]
Spearmans
rangcorrelatiecoëfficiënt
= rangcorrelatiecoëfficiënt
yik en yjk zijn rangnummers
binnen de variabelen Yi en Yj
[-1,+1]
, puntcorrelatie,
associatiecoëfficiënt
= puntcorrelatie
yik en yjk zijn presenties: 0 of 1
[-1,+1]
cosinus van de hoek α
tussen de vectoren
door de oorsprong

voor binaire variabelen wordt de formule:
= cosinus
= waarde voor object i en variabele k
= waarde voor object j en variabele k
m = aantal waarden
[-1,+1]

Een andere correlatiecoëfficiënt is de punt-biseriële correlatiecoëfficiënt, evenals de puntcorrelatie een variant van de Pearsons product-momentcorrelatiecoëfficiënt.

Overige maten voor similariteit, zoals de coëfficiënten van Jaccard, Sörensen, Whittaker en Motyka worden besproken bij de distanties.

Distanties

Voorbeelden van indices voor distanties.

afkorting naam coëfficiënt formule waarin:
m = aantal variabelen
range
MD Minkowski distance,
 geïnduceerd door de Lr-norm
 
(algemene formule)
MDij = distantie tussen objecten i en j

yik = waarde voor object i en variabele k
yjk = waarde voor object j en variabele k
m = aantal attributen met positieve waarden
r is een constante (1 of 2)
CBD city block distance,
Manhattan-metriek
[0, ∞)
ED euclidische afstand [0, ∞)
MCD mean character distance [0, ∞)
GE gemiddelde euclidische afstand
euclidische vorm van MCD
[0, ∞)
DM distance metric
 
(algemene formule)
DMij = distantie tussen objecten i en j

yik = waarde voor object i en variabele k
yjk = waarde voor object j en variabele k
m = aantal attributen met positieve waarden
r is een constante (1 of 2)
CM Canberra metric [0, ∞)
HM Hodson's metric,
euclidische vorm van CM
[0, ∞)
CD coefficient of divergence [0, 1]
M distantie naar Motyka,
percentage dissimilarity
distantie naar Czekanowsky,
kwantitatieve vorm van Sørensen

 
(algemene formule)
Mij = distantie tussen objecten i en j

yik = waarde voor object i en variabele k
yjk = waarde voor object j en variabele k
m = aantal attributen met positieve waarden
[0, 1]
S distantie naar Sørensen,
distantie naar Dice,
1-coefficient of community
[0, 1]
W distantie naar Whittaker,
kwantitatieve vorm van Jaccard
[0, 1]
J distantie naar Jaccard [0, 1]
H heterogeniteit yik en yjk zijn numerieke waarden [0, ∞)
a, b en c: zie hierbovenstaande tabel
SM' complement van
simple matching coefficient
A, B, C en D: zie hierbovenstaande tabel [0, 1]
YC Yule-coefficient [-1, 1]
χ2 Chi-kwadraat afstand [0, ∞)

Distantiematrix

Een distantiematrix is een vierkante, symmetrische matrix met voor elk paar van objecten de onderlinge distanties. Een dergelijke matrix is symmetrisch, omdat de distantie tussen objecten en gelijk is aan de distanties tussen de objecten en . Op de diagonaal staan de distanties van de objecten tot zichzelf: 0.

Distantiematrices worden onder andere gebruikt bij ordinatietechnieken op basis van een distantiematrix,[1] zoals polaire ordinatie (PO), principal coordinates analysis, PCoA of metric multidimensional scaling, en nonmetric multidimensional scaling (NMDS).

Een matrix met similariteiten in plaats van distanties wordt ook wel resemblance matrix genoemd.

Kembali kehalaman sebelumnya


Index: pl ar de en es fr it arz nl ja pt ceb sv uk vi war zh ru af ast az bg zh-min-nan bn be ca cs cy da et el eo eu fa gl ko hi hr id he ka la lv lt hu mk ms min no nn ce uz kk ro simple sk sl sr sh fi ta tt th tg azb tr ur zh-yue hy my ace als am an hyw ban bjn map-bms ba be-tarask bcl bpy bar bs br cv nv eml hif fo fy ga gd gu hak ha hsb io ig ilo ia ie os is jv kn ht ku ckb ky mrj lb lij li lmo mai mg ml zh-classical mr xmf mzn cdo mn nap new ne frr oc mhr or as pa pnb ps pms nds crh qu sa sah sco sq scn si sd szl su sw tl shn te bug vec vo wa wuu yi yo diq bat-smg zu lad kbd ang smn ab roa-rup frp arc gn av ay bh bi bo bxr cbk-zam co za dag ary se pdc dv dsb myv ext fur gv gag inh ki glk gan guw xal haw rw kbp pam csb kw km kv koi kg gom ks gcr lo lbe ltg lez nia ln jbo lg mt mi tw mwl mdf mnw nqo fj nah na nds-nl nrm nov om pi pag pap pfl pcd krc kaa ksh rm rue sm sat sc trv stq nso sn cu so srn kab roa-tara tet tpi to chr tum tk tyv udm ug vep fiu-vro vls wo xh zea ty ak bm ch ny ee ff got iu ik kl mad cr pih ami pwn pnt dz rmy rn sg st tn ss ti din chy ts kcg ve 
Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9