Korrelation: Forskelle mellem versioner

Content deleted Content added
Dalmer (diskussion | bidrag)
m Uddybning af cosinus-funktionens forskellige værdier under ensartede korrelations-intervaller
Dalmer (diskussion | bidrag)
Indsat supplerende afsnit om brugen af forskellige talskalaer ved korrelationsberegning
Linje 1:
'''Korrelation''' (eller "ko-relation", "sam-relation") er i [[statistik]] et mål for ''sammenhængsgraden'' mellem et sæt af to [[stokastisk variabel|variable]]/målinger. En høj korrelation betyder, at det ene sæt af variable kan forudsiges fra det andet og omvendt, eller at begge variable i en vis udstrækning er et resultat af samme fælles årsag, eller at de evt. er kommet til at dele et fælles betydningsindhold (rent semantisk).<ref>Ønsker man fx korrelationen udregnet mellem to menneskelige egenskaber, som ''loyalitet'' og ''trofasthed'', bliver resultatet uundgåeligt en meget høj korrelation, der vil have forholdsvis ringe forklaringsværdi, da begge disse egenskaber rent sprogligt i vid udstrækning dækker nøjagtig det samme.</ref> Korrelation betyder således ikke nødvendigvis, at der er en direkte årsagssammenhæng mellem to variabler.
 
For eksempel er ''vægt'' og ''højde'' to variable hos mennesket, der i en vis udstrækning er afhængige af hinanden – højere personer er ofte tungere end lavere personer. Men afhængigheden er ikke perfekt. Personer med samme højde kan som bekendt godt have forskellig vægt, trods alt. Ikke desto mindre er det i dette tilfælde tydeligt for enhver, at der i det mindste ''gennemsnitlig'' kan iagttages en vis relation mellem højde og vægt blandt mennesker. Størrelsen af denne relation beregnes ved hjælp af nedenstående matematiske formel og ender med et slutresultat, kaldet en korrelationskoefficient (eller ”'''r'''”), som varierer fra –1,00 til +1,00. Og jo nærmere '''r''' er til yderpunkterne +1,00 eller –1-1,00 desto større eller tættere er sammenhængen mellem de to variable.
 
Såfremt '''r''' er tæt på 0,00 betyder det, at der ikke er nogen sammenhæng mellem variablerne. Hvis '''r''' er positiv betyder det, at når en variabel (fx ''højde'') bliver større, så bliver den anden variabel (fx ''vægt'') det også, og omvendt. Hvis '''r''' derimod er negativ, betyder det, at når en variabel bliver større, så bliver den anden mindre (kaldes omvendt korrelation). - Når det gælder korrelationen mellem højde og vægt hos mennesket, ses den ofte beregnet til '''r''' = +0,72 under forudsætning af, at man til brug for beregningen har fået målt højden og vægten hos et stort antal mennesker. Korrelationen kan (i dette tilfælde) således vise, hvor meget vægten afhænger af højden. - Desværre er korrelationskalaen fra -1,00 og til +1,00 ikke en lineær skala på samme måde som på et målebånd eller en lineal, men følger i stedet en cosinus-funktion. Der er med andre ord ikke samme afstand mellem fx to korrelationskoefficienter på henholdsvis '''r''' = +0,83 og +0,85 sammenlignet med afstanden mellem to andre korrelationskoefficienter, lydende på henholdsvis '''r''' = +0,33 og +0,35. Differencen er ganske vist begge steder 0,02 nummerisk set. Men i førstnævnte tilfælde er værdien af dette interval ''på dette sted af korrelationsskalaen'' noget større end i sidstnævnte tilfælde, nemlig hele ca. 75%.
 
En korrelationskoefficient som den anførte på +0,72 giver dog endnu mere mening, dersom tallet også opløftes i 2. potens. I så fald bliver resultatet 0,52. Denne talværdi kaldes koefficientens ''varians'', hvilket betyder/afslører, at enten styres relationen mellem ''højde'' og ''vægt'' med højden som årsag til vægten for 52% vedkommende - eller også styres relationen mellem de to variable af den samme fælles årsag for ligeledes 52% vedkommende. For de resterende 48% vedkommende skyldes forholdet mellem højden og vægten således helt andre omstændigheder.<ref>Spørgsmålet er dog her, om det nu også i virkeligheden giver god mening overhovedet at korrelere de indsamlede rå data for hhv. højde og vægt med hinanden? Vægten er jo indlysende en variabel, som hidrører fra målingen af et tredimensionalt objekt - mens højden er en variabel, der alene tager sigte på kun den ene af måleobjektets tre dimensioner. Såfremt man ønsker et mere præcist udtryk for den reelle sammenhængsgrad imellem højde og vægt hos mennesket, vil det givetvis være mere retvisende først at transformere den ene af variablerne, så begge variable dermed kan bringes på samme dimensionelle niveau, inden de korreleres med hinanden. Det kunne fx gøres ved først at tage kubikroden til alle vægt-tallene, inden selve udførelsen af korrelationsberegningen. En sådan forudgående variabeltransformation vil sandsynligvis kunne resultere i en noget højere korrelationskoefficient - og dermed afsløre en væsentlig tættere sammenhæng mellem højde og vægt, end først udmålt. (Det er således altid vigtigt, at man sørger for at overveje hvilke [[måleskalaer|talskalaer]], som det er mest relevant at benytte i forbindelse med en påtænkt korrelationsberegning).</ref>
 
Formlen for den mest benyttede korrelationsberegning (Pearson’s korrelation) blev i sin tid udviklet på basis af brugen af almindelige metriske [[måleskala|talskala]]er (dvs. ratioskalaer og intervalskalaer). Både ''vægt'' og ''højde'' udmåles således altid på en ratioskala. Skulle man derimod korrelere en feberkurve med fx en kurve for blodsænkningstallet, vil det altid ske på en intervalskala. (Feberkurven, der måles i Celsius grader, har nemlig lige så lidt som blodsænkningstallet et såkaldt ''absolut'' nulpunkt). Man kan dog i begge tilfælde være sikker på, at en vægt på 100 kg ligger nøjagtig midt imellem 90 kg og 110 kg. Ligesom 40<sup>o</sup> i feber ligger nøjagtig midt imellem 39<sup>o</sup> og 41<sup>o</sup> i feber. – Men ønsker man at måle korrelationen mellem fx en mulig samtidig forekomst af både ''angst'' og ''depression'' via et spørgeskema på et stort antal mennesker, og der her gives tre svarmuligheder: ''(1)Ja altid – (2)Sommetider – (3)Slet ikke,'' så kan man ikke regne med, at svaret ''(2)Sommetider'' ligger midt imellem og i nøjagtig samme afstand fra ''(1)Ja altid'' og ''(3)Slet ikke''. I sidstnævnte tilfælde er der her anderledes tale om brugen af en såkaldt ordinalskala, også kaldet en rangordensskala. Formlen for korrelationsberegninger på en ordinalskala (Spearman’s korrelation) er som følge heraf også anderledes end for Pearson’s korrelation. Men alligevel ses ikke sjældent Pearson’s korrelation af nemheds grunde<ref>Manglende anvendelse af Spearman's korrelation skyldes dog også ofte, at denne formel ikke altid findes lagt ind i statistikprogrammerne på computeren.</ref> brugt også på ordinalskalaer, da det herved fremkomne fejlbehæftede resultat ''i praksis'' ses ikke at afvige ret meget fra brugen af den korrekte beregningsmåde.
I forbindelse med gennemførelsen af fx store forskningsprojekter el.lign. med rigtig mange forskellige variable, foretager man ofte korrelationsberegninger parvis mellem alle de udmålte variable indbyrdes for bl.a. at kunne reducere mængden af, hvad der under udregningen måtte vise sig at være variable af mindre betydning - en proces, som vil fremme hele overskueligheden i data-materialet. Det gøres ved at stille et sådant sæt af krydstabulerede korrelationsberegninger op i en to-dimensional ''korrelationsmatrice'', som herefter vil kunne danne udgangspunktet for udregningerne til en såkaldt ''faktor-model'' ved hjælp af [[faktoranalyse]] (sker teoretisk via brugen af ''matrix-algebra'' - i praksis via en computer-kørsel).
 
I forbindelse med gennemførelsen af fx store forskningsprojekter el.lign. med rigtig mange forskellige variable, foretager man ofte korrelationsberegninger parvis mellem alle de udmålte variable indbyrdes for bl.a. at kunne reducere mængden af, hvad der under udregningen måtte vise sig at være variable af mindre betydning - en proces, som vil fremme hele overskueligheden i data-materialet. Det gøres ved at stille et sådant sæt af krydstabulerede korrelationsberegninger op i en to-dimensional ''korrelationsmatrice'', som herefter vil kunne danne udgangspunktet for udregningerne tilmed henblik på tilvejebringelsen af en såkaldt ''faktor-model'' ved hjælp af [[faktoranalyse]] (sker teoretisk via brugen af ''matrix-algebra'' - i praksis via en computer-kørsel).
== Udregning af korrelationskoefficienten ==
 
=== Udregning af Pearson's korrelationskoefficient ===
Korrelationen mellem to stokastiske variable X og Y benævnes <math>\mbox{corr}(X,Y)</math> (forkortelse af det engelske ord ''correlation'') og udregnes: