Multikollinearität

Bei einer Regressionsanalyse spricht man von Multikollinearität, wenn zwei oder mehrere Prädiktorvariablen (unabhängige Variablen) eine hohe Korrelation aufweisen. Dies führt dazu, dass die Regressionskoeffizienten instabil sind und nicht mehr interpretiert werden können.

Warum ist Multikollinearität ein Problem?

Multikollinearität ist ein Problem, weil sie die statistische Signifikanz der unabhängigen Variablen verzerrt.

Ein Hauptziel der Regression ist es, die Beziehung von jeder unabhängigen Variable und der abhängigen Variable zu bestimmen. Wenn nun aber Variablen stark korrelieren, kann unter umständen nicht mehr genau bestimmt werden welcher Einfluss von welcher Variable kommt. Dadurch können dann die p Werte der Regressionskoeffizienten nicht mehr interpretiert werden.

Bei Multikollinearität können sich die Regressionskoeffizienten stark verändern, wenn sich die Daten sehr geringfügig ändern oder neue Variablen hinzugefügt werden.

Ist Multikollinearität immer ein Problem?

Multikollinearität hat nur einen Einfluss auf die unabhängigen Variablen, die stark korrelieren. Wenn dich andere Variablen interessieren die keine Multikollinearität aufweisen, dann kannst du diese ganz normal interpretieren.

Wenn du das Regressionsmodell für eine Vorhersage verwendest, dann hat die Multikollinearität keinen Einfluss auf das Ergebnis der Vorhersage. Die Multikollinearität beeinflusst nur die einzelnen Koeffizienten und den p-Wert.

Wie kann man Multikollinearität vermeiden?

Um Multikollinearität zu vermeiden, muss überprüft werden, dass keine starken linearen Abhängigkeiten zwischen den Prädiktoren vorliegen. Dies ist zum Beispiel der Fall, wenn eine Variable das Vielfache einer anderen Variable darstellt. In diesem Fall korrelieren die beiden Variablen perfekt miteinander und die eine Variable erklärt die andere Variable zu 100 %. Es bringt dann keinen Mehrwert, die beide Variablen in ein Regressionsmodell aufzunehmen.

In der Realität kommt eine perfekter linearer Zusammenhang jedoch selten vor. Daher spricht man von Multikollinearität, wenn einzelne Variablen hoch miteinander korrelieren. In diesem Fall kann der Effekt der Variablen nicht klar voneinander getrennt und das Regressionsmodell nicht sinnvoll interpretiert werden. Um eine hohe Korrelation zwischen den Prädiktoren zu entdecken, kann zunächst eine Korrelationsanalyse durchgeführt werden.

Tests auf Multikollinearität

Da bei vorliegenden Daten stets eine gewisse Multikollinearität vorhanden ist, wurden Kennzahlen eingeführt, die auf Multikollinearität hinweisen sollen. Um Multikollinearität zu testen, wird für jede unabhängigen Variable ein neues Regressionsmodell erstellt. In diesen Regressionsmodellen wird die ursprüngliche abhängige Variable außen vor gelassen und jeweils eine der unabhängigen Variablen zur abhängigen Variable gemacht.

Es wird also geprüft, wie gut eine unabhängige Variable durch die anderen unabhängigen Variablen abgebildet werden kann. Wenn die eine unabhängige Variable sehr gut durch die anderen unabhängigen Variablen abgebildet werden kann, ist dies Einzeichnen für Multikollinearität

Wenn z.B. x₁ komplett aus den anderen Variablen zusammengesetzt werden kann, dann kann das Regressionsmodell nicht wissen, was b₁ ist bzw. was die anderen koeffizienten sein müssen. In der Mathematik sagt man dann, dass die Gleichung überbestimmt ist.

Toleranz-Wert

Um herauszufinden, ob Multikollinearität vorliegt, wird zum einen die Toleranz der einzelnen Prädiktoren betrachtet. Die Toleranz T_i für den i. Prädiktor berechnet sich mit

Für die Berechnung von R_i² wird, wie oben besprochen, ein neues Regressionsmodell erstellt. Dieses Modell enthält alle Prädiktoren, wobei der i. Prädiktor als neues Kriterium (abhängige Variable) verwendet wird. Hierdurch ist es nun möglich zu bestimmen, wie gut der i. Prädiktor durch die anderen Prädiktoren abgebildet werden kann.

Ein Toleranz-Wert (T) unter 0,1 wird als kritisch angesehen und es liegt Multikollinearität vor. In diesem Fall können mehr als 90% der Varianz durch die anderen Prädiktoren erklärt werden.

VIF Multikollinearität

Ein weiteres Maß zur Überprüfung der Multikollinearität ist der VIF (Variance Inflation Factor). Die VIF-Statistik berechnet sich durch

Je größer der VIF-Wert ausfällt, desto eher liegt Multikollinearität vor. Dabei werden beim VIF Test Werte von über 10 als kritisch betrachtet. Der VIF-Wert wird bei zunehmender Multikollinearität also größer.

Statistik leichtgemacht

Viele anschauliche Beispiele
Ideal für Prüfungen und Abschlussarbeiten
Statistik leichtgemacht auf 321 Seiten
4. überarbeitete Auflage (April 2024)
Nur 7,99 €

Leseprobe

"Super einfach geschrieben"

"Einfacher geht es nicht"

"Soviele hilfreiche Beispiele"

Fragebogen leichtgemacht

Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,

Viele anschauliche Beispiele
Ideal für die Abschlussarbeit
Fragebogen leichtgemacht auf 61 Seiten
3. überarbeitete Auflage (April 2024)
Nur 3,99 €

Leseprobe

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.

Leseprobe

Literatur

Statistik: Der Weg zur Datenanalyse.

Fahrmeir, L. Heumann, C. Künstler, R. Pigeot, I. & Tutz, G.

Zum Buch auf Amazon

Statistik für Human- und Sozialwissenschaftler: Limitierte Sonderausgabe.

Bortz, J. & Schuster, C.

Zum Buch auf Amazon

Multikollinearität

Warum ist Multikollinearität ein Problem?

Ist Multikollinearität immer ein Problem?

Tests auf Multikollinearität

Toleranz-Wert

VIF Multikollinearität

Statistik leichtgemacht

Fragebogen leichtgemacht

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Literatur

Statistik: Der Weg zur Datenanalyse.

Fahrmeir, L. Heumann, C. Künstler, R. Pigeot, I. & Tutz, G.

Statistik für Human- und Sozialwissenschaftler: Limitierte Sonderausgabe.

Bortz, J. & Schuster, C.

Fit fürs Studium – Statistik: Alle Grundlagen verständlich erklärt. Geeignet für Studiengänge mit statistischen Methoden: VWL, BWL, Informatik etc.

Grabinger B.

Multivariate Analysemethoden: Eine anwendungsorientierte Einführung.

Backhaus, K. Erichson, B. Plinke, P. & Weiber, R.

evaluiert: erweitertes Planungsbuch für Evaluationen im Bildungsbereich

Balzer, L. & Beywl, W.

Basiswissen Medizinische Statistik.

Weiß, C.

Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften.

Doring, N. & Bortz, J.