Korrelation: Forskelle mellem versioner

Content deleted Content added
m Gendannelse til seneste version ved Addbot, fjerner ændringer fra 188.228.21.83 (diskussion | bidrag)
Dalmer (diskussion | bidrag)
Uddybning af korrelationsbegrebet
Linje 1:
I [[statistik]] er '''korrelation''' (eller ''"ko-relation''", "sam-relation") et mål for en sammenhæng''sammenhængsgraden'' mellem et sæt af to [[stokastisk variabel|variable]]/målinger. En høj korrelation betyder, at det ene sæt af variablervariable kan forudsiges fra det andet og omvendt., Korrelationeneller at begge variable i en vis udstrækning er uafhængiget resultat af skala.samme Såledesfælles vilårsag, korrelationeneller forat tode variableevt. måltdeler iet meterfælles værebetydningsindhold den(rent sammesemantisk). Korrelation betyder således ikke nødvendigvis, somat hvisder deer bleven måltdirekte iårsagssammenhæng centimeter.mellem to variabler.
 
Korrelation betyder ikke nødvendigvis at der er en direkte årsagssammenhæng mellem to variabler.
For eksempel er ''vægt'' og ''højde'' to variable hos mennesket, der i en vis udstrækning er afhængige af hinanden – højere personer er ofte tungere end lavere personer. Men afhængigheden er ikke perfekt. Personer med samme højde kan som bekendt godt have forskellig vægt, trods alt. Ikke desto mindre er det i dette tilfælde tydeligt for enhver, at der ''gennemsnitlig'' kan iagttages en vis relation mellem højde og vægt. Størrelsen af denne relation beregnes ved hjælp af nedenstående matematiske formel og ender med et slutresultat, kaldet en korrelationskoefficient (eller ”'''r'''”), som varierer fra –1,00 til +1,00. Og jo nærmere '''r''' er til +1,00 eller –1,00 jo større eller tættere er sammenhængen mellem de to variable.
 
Såfremt '''r''' er tæt på 0,00 betyder det, at der ikke er nogen sammenhæng mellem variablerne. Hvis '''r''' er positiv betyder det, at når en variabel (fx ''vægt'') bliver større, så bliver den anden variabel (fx ''højde'') det også. Hvis '''r''' derimod er negativ, betyder det, at når en variabel bliver større, så bliver den anden mindre (kaldes omvendt korrelation). - Når det gælder korrelationen mellem højde og vægt hos mennesket, ses den ofte beregnet til '''r''' = +0,72 under forudsætning af, at man til brug for beregningen har fået målt højden og vægten hos et stort antal mennesker. Korrelationen kan (i dette tilfælde) således vise, hvor meget vægten afhænger af højden.
 
En korrelationskoefficient som denne på 0,72 giver dog endnu mere mening, dersom tallet også opløftes i 2. potens. I så fald bliver resultatet 0,52. Denne talværdi kaldes ''variansen'', hvilket betyder/afslører, at relationen mellem højde og vægt i virkeligheden kun styres af samme fælles årsag for blot 52 % vedkommende. For 48 % vedkommende skyldes højden og vægten således andre forhold eller omstændigheder.
 
Den praktiske anvendelse af korrelation begyndte med [[Francis Galton]] omkring 1889<ref>[[Francis Galton]], "Co-relations and their measurement, chiefly from antropometric data", ''[[Proceedings of the Royal Society of London]]'', 45:135-145</ref>, hvor han brugte korrelation til at sammenligne størrelsen af forskellige kropsdele.
Line 6 ⟶ 11:
[[Karl Pearson]] viderførte Bravais og Galton's arbejde<ref>[[Karl Pearson]], "Mathematical contributions to the theory of evolution III: Regression, heredity, panmixia", ''Philo. trans. Roy. Soc. London Ser. A'', 187:253-318</ref>, og det almindelige mål for korrelationen – "korrelationskoefficienten" – betegnes nu også ''Pearsons korrelation''.
 
I forbindelse med gennemførelsen af fx store forskningsprojekter el.lign. med rigtig mange forskellige variable, foretager man ofte korrelationsberegninger parvis mellem alle de udmålte variable indbyrdes for bl.a. at kunne reducere mængden af, hvad der under udregningen måtte vise sig at være variable af mindre betydning - en proces, som vil fremme hele overskueligheden i data-materialet. Det gøres ved at stille et sådant sæt af krydstabulerede korrelationsberegninger op i en to-dimensional ''korrelationsmatrice'', som herefter vil kunne danne udgangspunktet for udregningerne til den meget avancerede såkaldte matematisk/statistiske ''faktor-model'' ved hjælp af [[faktoranalyse]] (sker via brugen af ''matrix-algebra'').
I forbindelse med korrelation bruger man ofte [[skatterplot]].
 
Til brug for en mere oversigtsgivende fremstilling (grafisk) af de variabelværdier, der indgår i en simpel korrelationsberegning, bruger man ofte et [[skatterplot]].
== Udregning af korrelation ==
 
== Udregning af korrelationkorrelationskoefficienten ==
Korrelationen mellem to stokastiske variable X og Y benævnes <math>\mbox{corr}(X,Y)</math> (forkortelse af det engelske ord ''correlation'') og udregnes:
 
Line 16 ⟶ 23:
hvor <math>\mbox{cov}</math> angiver [[kovarians]]en, <math>\mbox{var}</math> angiver [[varians]]en og <math>\mbox{std}</math> angiver [[standardafvigelse]]n.
Ofte bruger statistikere og andre også det græske bogstav rho <math>\rho</math> til at angive en (populations) korrelation eller bogstavet ''r'' (for en korrelation udregnet med et givent [[datasæt]]).
Det kan bemærkes, at <math>\sqrt{\mbox{var}(X)} = \mbox{std}(X)</math>. Hvis den empiriske korrelation ønsket regnet ud fra et datasæt, regnes først de empiriske størrelser for variansen og kovariansen ud fra hvilke korrelationen kan regnes.
 
Hvis den empiriske korrelation ønsket regnet ud fra et datasæt, kan denne formel benyttes:
 
: <math>\mbox{corr}(X,Y)= \frac{\sum x_iy_i-n \bar{x} \bar{y}}{(n-1) s_x s_y}=\frac{n\sum x_iy_i-\sum x_i\sum y_i}
{\sqrt{n\sum x_i^2-(\sum x_i)^2}~\sqrt{n\sum y_i^2-(\sum y_i)^2}} </math>
 
Det er endvidere muligt at regne den statistiske [[fordelingsfunktion]] af korrelationskoefficienten ud, givet at de to variabler er normalfordelte og der ingen korrelation er imellem dem.<ref>[[Jørgen Granfeldt]], [http://home.imf.au.dk/statbib/atskurser/stat1/noter/n2np_f2005_trykning.pdf "Statistik 1 og Statistiske Modeller 2: Todimensionale normalfordelte data, Flerdimensionale normalfordelte data"], [[Aarhus Universitet]], 2005 februar.</ref>
 
== Henvisninger ==