Menu

Multikollinearität

Bei einer Regressionsanalyse spricht man von Multikollinearität, wenn zwei oder mehrere Prädiktorvariablen (unabhängige Variablen) eine hohe Korrelation aufweisen. Dies führt dazu, dass die Regressionskoeffizienten instabil sind und nicht mehr interpretiert werden können.

Warum ist Multikollinearität ein Problem?

Multikollinearität ist ein Problem, weil sie die statistische Signifikanz der unabhängigen Variablen verzerrt.

Ein Hauptziel der Regression ist es, die Beziehung von jeder unabhängigen Variable und der abhängigen Variable zu bestimmen. Wenn nun aber Variablen stark korrelieren, kann unter umständen nicht mehr genau bestimmt werden welcher Einfluss von welcher Variable kommt. Dadurch können dann die p Werte der Regressionskoeffizienten nicht mehr interpretiert werden.

Bei Multikollinearität können sich die Regressionskoeffizienten stark verändern, wenn sich die Daten sehr geringfügig ändern oder neue Variablen hinzugefügt werden.

Ist Multikollinearität immer ein Problem?

Multikollinearität hat nur einen Einfluss auf die unabhängigen Variablen, die stark korrelieren. Wenn dich andere Variablen interessieren die keine Multikollinearität aufweisen, dann kannst du diese ganz normal interpretieren.

Wenn du das Regressionsmodell für eine Vorhersage verwendest, dann hat die Multikollinearität keinen Einfluss auf das Ergebnis der Vorhersage. Die Multikollinearität beeinflusst nur die einzelnen Koeffizienten und den p-Wert.

Wie kann man Multikollinearität vermeiden?

Um Multikollinearität zu vermeiden, muss überprüft werden, dass keine starken linearen Abhängigkeiten zwischen den Prädiktoren vorliegen. Dies ist zum Beispiel der Fall, wenn eine Variable das Vielfache einer anderen Variable darstellt. In diesem Fall korrelieren die beiden Variablen perfekt miteinander und die eine Variable erklärt die andere Variable zu 100 %. Es bringt dann keinen Mehrwert, die beide Variablen in ein Regressionsmodell aufzunehmen.

Multikollinearität

In der Realität kommt eine perfekter linearer Zusammenhang jedoch selten vor. Daher spricht man von Multikollinearität, wenn einzelne Variablen hoch miteinander korrelieren. In diesem Fall kann der Effekt der Variablen nicht klar voneinander getrennt und das Regressionsmodell nicht sinnvoll interpretiert werden. Um eine hohe Korrelation zwischen den Prädiktoren zu entdecken, kann zunächst eine Korrelationsanalyse durchgeführt werden.

Tests auf Multikollinearität

Da bei vorliegenden Daten stets eine gewisse Multikollinearität vorhanden ist, wurden Kennzahlen eingeführt, die auf Multikollinearität hinweisen sollen. Um Multikollinearität zu testen, wird für jede unabhängigen Variable ein neues Regressionsmodell erstellt. In diesen Regressionsmodellen wird die ursprüngliche abhängige Variable außen vor gelassen und jeweils eine der unabhängigen Variablen zur abhängigen Variable gemacht.

Es wird also geprüft, wie gut eine unabhängige Variable durch die anderen unabhängigen Variablen abgebildet werden kann. Wenn die eine unabhängige Variable sehr gut durch die anderen unabhängigen Variablen abgebildet werden kann, ist dies Einzeichnen für Multikollinearität

VIF Multikollinearität

Wenn z.B. x1 komplett aus den anderen Variablen zusammengesetzt werden kann, dann kann das Regressionsmodell nicht wissen, was b1 ist bzw. was die anderen koeffizienten sein müssen. In der Mathematik sagt man dann, dass die Gleichung überbestimmt ist.

Toleranz-Wert

Um herauszufinden, ob Multikollinearität vorliegt, wird zum einen die Toleranz der einzelnen Prädiktoren betrachtet. Die Toleranz Ti für den i. Prädiktor berechnet sich mit

Toleranz Multikollinearität

Für die Berechnung von Ri2 wird, wie oben besprochen, ein neues Regressionsmodell erstellt. Dieses Modell enthält alle Prädiktoren, wobei der i. Prädiktor als neues Kriterium (abhängige Variable) verwendet wird. Hierdurch ist es nun möglich zu bestimmen, wie gut der i. Prädiktor durch die anderen Prädiktoren abgebildet werden kann.

Ein Toleranz-Wert (T) unter 0,1 wird als kritisch angesehen und es liegt Multikollinearität vor. In diesem Fall können mehr als 90% der Varianz durch die anderen Prädiktoren erklärt werden.

VIF Multikollinearität

Ein weiteres Maß zur Überprüfung der Multikollinearität ist der VIF (Variance Inflation Factor). Die VIF-Statistik berechnet sich durch

VIF Multikollinearität

Je größer der VIF-Wert ausfällt, desto eher liegt Multikollinearität vor. Dabei werden beim VIF Test Werte von über 10 als kritisch betrachtet. Der VIF-Wert wird bei zunehmender Multikollinearität also größer.


Statistik leichtgemacht

  • Viele anschauliche Beispiele
  • Ideal für Prüfungen und Abschlussarbeiten
  • Statistik leichtgemacht auf 260 Seiten
  • 3. überarbeitete Auflage (Januar 2023)
  • Nur 6,99 €
Leseprobe
Datatab

"Super einfach geschrieben"

"Einfacher geht es nicht"

"Soviele hilfreiche Beispiele"

Fragebogen leichtgemacht

Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,

  • Viele anschauliche Beispiele
  • Ideal für die Abschlussarbeit
  • Fragebogen leichtgemacht auf 59 Seiten
  • 2. überarbeitete Auflage (Januar 2023)
  • Nur 3,49 €
Leseprobe
Datatab

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.

Datatab
Leseprobe

Literatur

Statistik: Der Weg zur Datenanalyse.
Fahrmeir, L. Heumann, C. Künstler, R. Pigeot, I. & Tutz, G.
Zum Buch auf Amazon
Statistik für Human- und Sozialwissenschaftler: Limitierte Sonderausgabe.
Bortz, J. & Schuster, C.
Zum Buch auf Amazon
Fit fürs Studium – Statistik: Alle Grundlagen verständlich erklärt. Geeignet für Studiengänge mit statistischen Methoden: VWL, BWL, Informatik etc.
Grabinger B.
Zum Buch auf Amazon
Multivariate Analysemethoden: Eine anwendungsorientierte Einführung.
Backhaus, K. Erichson, B. Plinke, P. & Weiber, R.
Zum Buch auf Amazon
evaluiert: erweitertes Planungsbuch für Evaluationen im Bildungsbereich
Balzer, L. & Beywl, W.
Zum Buch auf Amazon
Basiswissen Medizinische Statistik.
Weiß, C.
Zum Buch auf Amazon
Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften.
Doring, N. & Bortz, J.
Zum Buch auf Amazon

DATAtab zitieren: DATAtab Team (2024). DATAtab: Online Statistics Calculator. DATAtab e.U. Graz, Austria. URL https://datatab.de

Kontakt & Support Beratung FAQ & About Us Statistik Software Impressum & Datenschutz