Multikollinearitet

Multikollinearitet refererer til et problem, der kan opstå i regressionsanalyse, hvor to eller flere regressorer er meget tæt korrelerede. Multikollinearitet vil føre til upræcise, men ikke inkonsistente estimater. Dermed er det primært et problem i små stikprøvestørrelser. Hvis én af regressorerne kan forklares perfekt ud fra de øvrige regressorer, kaldes det *perfekt multikollinearitet*, hvorved og så er det ikke muligt at finde en vektor af koefficienter, der minimerer de kvadrerede residualer. Med andre ord brydes betingelsen om fuld rang, som er en antagelse i den lineære regressionsmodel.

Eksempler på perfekt multikollinearitet i praksis: I praksis vil dette typisk forekomme, hvis den samme regressor ved et uheld indsættes to eller flere gange, eller hvis én af regressorerne ikke har nogen variation i stikprøven (og modellen dermed har to konstantled). Eksempelvis hvis man inkluderer en persons nationalitet som forklarende variabel, men alle personer i stikprøven har samme nationalitet. Et mere kompliceret eksempel er, hvis der er paneldata på personer (dvs. flere observationer for den samme person over tid), og der medtages person-specifikke fixed effects (dummies) sammen med en tidsinvariant person-specifik regressor (såsom fødselsår). Da kan fødselsår perfekt forklares lineært ud fra den personspecifikke dummy (det er bare fødselsåret gange dummien), og der er derfor perfekt multikollinearitet. Moderne software såsom Stata vil automatisk opdage dette før estimationen køres og forsøge at fjerne problematiske variable.

Et mål for graden af multikollinearitet kan opnås ved at regressere en af de forklarende variable på de øvrige og tage R2 (forklaringsgraden) fra denne regression. Hvis bare én af disse regressioner har en R2 på 1, er der perfekt multikollinearitet.^[1]

Kilder redigér

^ Wooldridge, Jeffrey M. Econometric analysis of cross section and panel data. MIT press, 2010.

[1] Wooldridge, Jeffrey M. Econometric analysis of cross section and panel data. MIT press, 2010.

[1]