Multikollinearität
Bei einer Regressionsanalyse spricht man von Multikollinearität, wenn zwei oder mehrere Prädiktorvariablen (unabhängige Variablen) eine hohe Korrelation aufweisen. Dies führt dazu, dass die Regressionskoeffizienten instabil sind und nicht mehr interpretiert werden können.
Warum ist Multikollinearität ein Problem?
Multikollinearität ist ein Problem, weil sie die statistische Signifikanz der unabhängigen Variablen verzerrt.
Ein Hauptziel der Regression ist es, die Beziehung von jeder unabhängigen Variable und der abhängigen Variable zu bestimmen. Wenn nun aber Variablen stark korrelieren, kann unter umständen nicht mehr genau bestimmt werden welcher Einfluss von welcher Variable kommt. Dadurch können dann die p Werte der Regressionskoeffizienten nicht mehr interpretiert werden.
Bei Multikollinearität können sich die Regressionskoeffizienten stark verändern, wenn sich die Daten sehr geringfügig ändern oder neue Variablen hinzugefügt werden.
Ist Multikollinearität immer ein Problem?
Multikollinearität hat nur einen Einfluss auf die unabhängigen Variablen, die stark korrelieren. Wenn dich andere Variablen interessieren die keine Multikollinearität aufweisen, dann kannst du diese ganz normal interpretieren.
Wenn du das Regressionsmodell für eine Vorhersage verwendest, dann hat die Multikollinearität keinen Einfluss auf das Ergebnis der Vorhersage. Die Multikollinearität beeinflusst nur die einzelnen Koeffizienten und den p-Wert.
Wie kann man Multikollinearität vermeiden?
Um Multikollinearität zu vermeiden, muss überprüft werden, dass keine starken linearen Abhängigkeiten zwischen den Prädiktoren vorliegen. Dies ist zum Beispiel der Fall, wenn eine Variable das Vielfache einer anderen Variable darstellt. In diesem Fall korrelieren die beiden Variablen perfekt miteinander und die eine Variable erklärt die andere Variable zu 100 %. Es bringt dann keinen Mehrwert, die beide Variablen in ein Regressionsmodell aufzunehmen.
In der Realität kommt eine perfekter linearer Zusammenhang jedoch selten vor. Daher spricht man von Multikollinearität, wenn einzelne Variablen hoch miteinander korrelieren. In diesem Fall kann der Effekt der Variablen nicht klar voneinander getrennt und das Regressionsmodell nicht sinnvoll interpretiert werden. Um eine hohe Korrelation zwischen den Prädiktoren zu entdecken, kann zunächst eine Korrelationsanalyse durchgeführt werden.
Tests auf Multikollinearität
Da bei vorliegenden Daten stets eine gewisse Multikollinearität vorhanden ist, wurden Kennzahlen eingeführt, die auf Multikollinearität hinweisen sollen. Um Multikollinearität zu testen, wird für jede unabhängigen Variable ein neues Regressionsmodell erstellt. In diesen Regressionsmodellen wird die ursprüngliche abhängige Variable außen vor gelassen und jeweils eine der unabhängigen Variablen zur abhängigen Variable gemacht.
Es wird also geprüft, wie gut eine unabhängige Variable durch die anderen unabhängigen Variablen abgebildet werden kann. Wenn die eine unabhängige Variable sehr gut durch die anderen unabhängigen Variablen abgebildet werden kann, ist dies Einzeichnen für Multikollinearität
Wenn z.B. x1 komplett aus den anderen Variablen zusammengesetzt werden kann, dann kann das Regressionsmodell nicht wissen, was b1 ist bzw. was die anderen koeffizienten sein müssen. In der Mathematik sagt man dann, dass die Gleichung überbestimmt ist.
Toleranz-Wert
Um herauszufinden, ob Multikollinearität vorliegt, wird zum einen die Toleranz der einzelnen Prädiktoren betrachtet. Die Toleranz Ti für den i. Prädiktor berechnet sich mit
Für die Berechnung von Ri2 wird, wie oben besprochen, ein neues Regressionsmodell erstellt. Dieses Modell enthält alle Prädiktoren, wobei der i. Prädiktor als neues Kriterium (abhängige Variable) verwendet wird. Hierdurch ist es nun möglich zu bestimmen, wie gut der i. Prädiktor durch die anderen Prädiktoren abgebildet werden kann.
Ein Toleranz-Wert (T) unter 0,1 wird als kritisch angesehen und es liegt Multikollinearität vor. In diesem Fall können mehr als 90% der Varianz durch die anderen Prädiktoren erklärt werden.
VIF Multikollinearität
Ein weiteres Maß zur Überprüfung der Multikollinearität ist der VIF (Variance Inflation Factor). Die VIF-Statistik berechnet sich durch
Je größer der VIF-Wert ausfällt, desto eher liegt Multikollinearität vor. Dabei werden beim VIF Test Werte von über 10 als kritisch betrachtet. Der VIF-Wert wird bei zunehmender Multikollinearität also größer.
Statistik leichtgemacht
- Viele anschauliche Beispiele
- Ideal für Prüfungen und Abschlussarbeiten
- Statistik leichtgemacht auf 321 Seiten
- 4. überarbeitete Auflage (April 2024)
- Nur 7,99 €
"Super einfach geschrieben"
"Einfacher geht es nicht"
"Soviele hilfreiche Beispiele"
Fragebogen leichtgemacht
Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,
- Viele anschauliche Beispiele
- Ideal für die Abschlussarbeit
- Fragebogen leichtgemacht auf 61 Seiten
- 3. überarbeitete Auflage (April 2024)
- Nur 3,99 €
Statistik leichtgemacht
Endlich ohne Probleme Statistik verstehen.
Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.