Correspondentieanalyse

Correspondentieanalyse (afkorting: CA, ook Reciprocal Averaging, RA) is een methode voor ordinatie, verwant aan hoofdcomponentenanalyse.

Toepassing in de ecologie

[bewerken | brontekst bewerken]

Correspondentieanalyse en varianten daarvan, en dan vooral de detrended correspondence analysis, worden in de biologie, in het bijzonder in de gemeenschapsecologie, veel toegepast in het onderzoek van levensgemeenschappen. De soortensamenstelling kan daarbij in verband gebracht worden met de milieufactoren.[1][2][3]

Standaard correspondentieanalyse

[bewerken | brontekst bewerken]
Tabel met geïdealiseerde ecologische gradiënt
één verklarende variabele en equidistante monsterpunten
soort nr.
↙ monsterpunt nr. ↘
01 02 03 04 05 06 07 08 09 10
Spec 01 5 3 1 . . . . . . .
Spec 02 3 5 3 1 . . . . . .
Spec 03 1 3 5 3 1 . . . . .
Spec 04 . 1 3 5 3 1 . . . .
Spec 05 . . 1 3 5 3 1 . . .
Spec 06 . . . 1 3 5 3 1 . .
Spec 07 . . . . 1 3 5 3 1 .
Spec 08 . . . . . 1 3 5 3 1
Spec 09 . . . . . . 1 3 5 3
Spec 10 . . . . . . . 1 3 5
milieufactor
Var 01 20 19 18 17 16 15 14 13 12 11
Correspondentieanalyse ordinogram van eerste twee assen met
boogvorming en compressie aan de uiteinden.

Vanwege een beveiligingsprobleem met de MediaWiki Graph-software is het momenteel niet mogelijk deze grafiek weer te geven. Zodra de software is bijgewerkt zal de grafiek vanzelf weer zichtbaar worden.

Correspondentieanalyse maakt gebruik van alleen niet-negatieve waarden en kan in termen van chi-kwadraatafstanden worden beschreven, op dezelfde manier waarop de hoofdcomponentenanalyse kan worden beschreven in termen van euclidische afstanden.

Reciprocal averaging, wederzijdse middeling, ook wel two-way weighted averaging, bestaat uit twee iteratieve stappen: een regressiestap en een calibratiestap.

Bij de regressiestap worden de scores voor de responsvariabelen berekend als een gewogen gemiddelde van het scores van de objecten en bij de calibratiestap worden de scores voor de objecten berekend als een gewogen gemiddelde van de scores van de responsvariabelen. De responsvariabelen zijn hier attributen. De iteraties worden voortgezet totdat er geen veranderingen meer optreden. Het is ook mogelijk nog meer ordinatieassen te berekenen.

De methode is een heuristische benadering van een ordinatie die op een eentoppig, gaussisch responsmodel is gebaseerd.[4] Er zijn een aantal verschillende algoritmen voor de correspondentieanalyse. De eigenwaarde van een as is gelijk de correlatiecoëfficiënt tussen attributen scores en scores steekproef.

Hoewel in de eerste stap wordt begonnen met willekeurige scores, die nog geen betekenis hebben, convergeert de benadering altijd tot een patroon met betekenis. De eigenwaarde is er een maat voor hoe goed de soortscores met de steekproefscores overeenkomen, vandaar de naam correspondentieanalyse. De eigenwaarde van een as komt overeen met de correlatie tussen soortenscores en steekproefscores. Daarbij blijkt in onderzoek aan levensgemeenschappen de eerste as meestal te zijn gekoppeld aan de gemeten belangrijke omgevingsgradiënten.[5]

Problemen bij de correspondentieanalyse

[bewerken | brontekst bewerken]

Correspondentieanalyse van de gegevens van levensgemeenschappen heeft twee problemen: het boogeffect en het samendrukken van de punten aan het einde van de ordinatieas.

Als eerste probleem is er het "boogeffect": de tweede ordinatieas kan een kwadratische vervorming zijn van de eerste as. Het boogeffect wordt ook veroorzaakt door unimodale verdeling langs gradiënten. Omdat de uiteinden van de gradiënt niet zijn ingebogen is het boogeffect niet zo ernstig als het "hoefijzereffect" bij de hoofdcomponentenanalyse.

Het tweede probleem bij de correspondentieanalyse is dat aan de uiteinden van de ordinateassen de objecten te dicht op elkaar liggen en daardoor samengedrukt lijken. Dit heeft te maken met het feit dat de responsvariabelen (attributen) die voorkomen in de objecten (monsterpunten) die aan het einde van de gradiënt liggen in het gegevensmateriaal niet meer een unimodale respons vertonen, maar monotoon of dalend of stijgend zijn.

Ondanks deze nadelen wordt toch vaak gekozen voor correspondentieanalyse boven hoofdcomponentenanalyse omdat daar "hoefijzereffect" optreedt: de vorm lijkt op de boog maar de uiteinden van de grafiek krullen naar binnen. Daarnaast is het onderliggende model van hoofdcomponentenanalyse vaak niet relevant in ecologisch onderzoek: een lineair verband tussen onderliggende milieuvariabelen en responsies kan niet zonder meer verwacht worden.

Detrended correspondence analysis

[bewerken | brontekst bewerken]
Zie Detrended correspondence analysis voor het hoofdartikel over dit onderwerp.

Bij detrended correspondence analysis worden deze twee tekortkomingen van correspondentieanalyse op kunstmatige verholpen.

  • Als de tweede ordinatieas een kwadratische vervorming is van de eerste ordinatieas kan door middel van 'detrending' het kwadratische verband verwijderd worden.
  • Daarnaast treedt het verschijnsel op dat de uiteinden van de ordinatieassen gecomprimeerd zijn. Door middel van 'nonlinear rescaling' worden de uiteinden van de ordinatieassen opgerekt.

In de ecologie wordt detrended correspondence analysis veelvuldig toegepast, omdat de lengte van de ordinatie-as een schatting is voor de beta-diversiteit. De lengte van de as wordt vaak uitgedrukt in SD (naar de term "Standard Deviation"). Als bij exploratief onderzoek blijkt dat de ordinatie-assen slechts kort zijn (SD kleiner dan ongeveer 4), kan gekozen worden voor hoofdcomponentenanalyse, omdat het dan blijkbaar niet nodig is van een unimodaal (Gaussisch) model uit te gaan en kan een lineair model gebruikt worden.

Canonische correspondentieanalyse

[bewerken | brontekst bewerken]

Van correspondentieanalyse bestaat ook een gebonden (canonische) vorm: canonische correspondentieanalyse (CCA). Canonische ordinatie is een combinatie van ordinatie en multipele regressie. De canonische ordinatie-assen worden samengesteld als een lineaire combinatie van verklarende variabelen: de milieufactoren. Ze worden daaruit berekend door meervoudige lineaire regressie.

Gewoonlijk blijkt het boogeffect niet meer op te treden bij het gebruik van milieufactoren als verklarende variabelen.

Soms is men bij bepaalde milieuvariabelen, de zogenaamde covariabelen, niet geïnteresseerd in hun effect op de afhankelijke variabelen, maar worden ze wel gemeten. In dit geval kan door "partiële ordinatie" hun effect statistisch worden verwijderd uit de resultaten. Dit gaat op vergelijkbare wijze als bij partiële regressie.

Dit geeft de mogelijkheid de responsies van soorten direct in verband te brengen met milieuvariabelen. Ook kan deze analysetechniek gebruikt worden bij experimenteel onderzoek.

Canonische correspondentieanalyse is het equivalent van redundantieanalyse (een canonische variant van hoofdcomponentenanalyse, PCA), waar het onderliggende model lineair is en niet gaussisch.