Die Regression ist eine statistische Methode, die es ermöglicht Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen zu modellieren.

Eine Regressionsanalyse dient somit dazu, ausgehend von einer oder mehreren Variablen auf eine weitere Variable zu schließen bzw. diese vorherzusagen.

Dich könnte zum Beispiel interessieren, welche Faktoren einen Einfluss auf das Gehalt einer Person haben. Hierfür könntest du z.B. den höchsten Bildungsabschluss, die wöchentliche Arbeitszeit und das Alter einer Person heranziehen.

In weiterer Folge könntest du nun untersuchen, ob diese drei Variablen einen Einfluss auf das Gehalt einer Person haben. Wenn ja, kannst du das Gehalt einer Person vorhersagen, wenn dir der höchste Bildungsabschluss, die wöchentliche Arbeitszeit und das Alter einer Person bekannt sind.

Was sind abhängige und unabhängige Variablen?

Die Variable, auf die geschlossen werden soll, wird als abhängige Variable (Kriterium) bezeichnet. Die Variablen, welche zur Vorhersage herangezogen werden, heißen unabhängige Variablen (Prädiktoren).

Im oberen Beispiel ist demnach das Gehalt die abhängige Variable und der höchste Bildungsabschluss, die wöchentliche Arbeitszeit und das Alter stellen die unabhängigen Variablen dar.

Wann verwende ich eine Regressionsanalyse?

Mit der Regressionsanalyse können zwei Ziele verfolgt werden: Einerseits kann der Einfluss von einer oder mehreren Variablen auf eine weitere Variable gemessen werden. Andererseits kann die Regression zur Vorhersage einer Variable durch eine oder mehrere andere Variablen verwendet werden. Zum Beispiel:

1) Messung des Einflusses einer oder mehrerer Variablen auf eine weitere Variable

Was hat einen Einfluss auf die Konzentrationsfähigkeit von Kindern?
Haben das Bildungsniveau der Eltern und der Wohnort einen Einfluss auf das zukünftige Bildungsniveau von Kindern?

2) Vorhersage einer Variable durch eine oder mehrere andere Variablen

Wie lange bleibt ein Patient im Krankenhaus?
Welches Produkt kauft eine Person am ehesten in einem Online-Shop?

Die Regressionsanalyse gibt Aufschluss darüber, wie sich der Wert der abhängigen Variable ändert, wenn eine der unabhängigen Variablen geändert wird.

Formen der Regressionsanalyse

Regressionsanalysen werden in einfache lineare Regression, multiple lineare Regression und logistische Regression unterteilt. Welche Regressionsanalyse zum Einsatz kommt, ergibt sich einerseits durch die Anzahl der unabhängigen Variablen und andererseits durch das Skalenniveau der abhängigen Variable.

	Anzahl unabhängiger Variablen	Skalenniveau abhängige Variable	Skalenniveau unabhängige Variable
Einfache lineare Regression	eine	metrisch	metrisch, ordinal, nominal
Multiple lineare Regression	mehrere	metrisch	metrisch, ordinal, nominal
Logistische Regression	mehrere	ordinal, nominal	metrisch, ordinal, nominal

Möchtest du nur eine Variable zur Vorhersage verwenden, kommt eine einfache Regression zur Anwendung. Ziehst du mehr als eine Variable heran, handelt es sich um eine multiple Regression. Ist die abhängige Variable nominal skaliert muss eine logistische Regression berechnet werden.

Ist die abhängige Variable metrisch skaliert wird eine lineare Regression berechnet. Ob nun eine lineare oder nicht-lineare Regression berechnet wird, hängt davon ab, ob ein linearer Zusammenhang zwischen den unabhängigen Variablen und der abhängige Variable besteht oder nicht.

Unabhängige Variable der Regression

Egal welche Regression berechnet wird, das Skalenniveau der unabhängigen Variablen kann jegliche Form annehmen (metrisch, ordinal und nominal). Liegt jedoch eine ordinale oder nominale Variable mit mehr als zwei Ausprägungen vor, müssen sogenannte Dummy-Variablen gebildet werden.

Dummy Variablen und Referenzkategorie

Wenn eine unabhängige Variable kategorisch ist, wird sie als binäre Dummy-Variable kodiert, bevor sie in das Regressionsmodell aufgenommen wird.

Bei der Erstellung von Dummy-Variablen wird eine Variable mit mehreren Kategorien in mehrere Variablen mit jeweils nur 2 Kategorien umgewandelt.

Eine der Kategorien wird als Referenzkategorie festgelegt und für jede der übrigen Kategorien wird eine neue Variable erstellt.

Nehmen wir ein Beispiel, um dies zu veranschaulichen. Angenommen, du untersuchst die Auswirkungen des Bildungsniveaus in den USA (eine kategoriale Variable mit drei Stufen: High School, College und Graduate) auf das Gehalt. Um diese kategoriale Variable in ein Regressionsmodell aufzunehmen, muss sie als Dummy-Variable kodiert werden.

Nehmen wir an, wir verwenden High School als Referenzkategorie und erstellen zwei Dummy-Variablen: is_college und is_graduate. Die Variable is_college nimmt beispielsweise den Wert 1 an, wenn die Person einen Collegeabschluss hat, und 0, wenn nicht.

Kontrollvariable

Bei der Regressionsanalyse ist eine Kontrollvariable (auch als "Kovariate" bezeichnet) eine zusätzliche unabhängige Variable, die in das Regressionsmodell aufgenommen wird, um mögliche Störfaktoren zu berücksichtigen. Der Hauptzweck der Einbeziehung von Kontrollvariablen besteht darin, die interessierende Beziehung zwischen der/den unabhängigen Hauptvariablen und der abhängigen Variable zu isolieren und sicherzustellen, dass die beobachtete Beziehung nicht durch andere unbeobachtete Faktoren beeinflusst wird.

Die Einbeziehung von Kontrollvariablen kann in mehrfacher Hinsicht hilfreich sein:

Verringerung der Verzerrung durch ausgelassene Variablen: Wenn es eine Variable gibt, die sowohl die abhängige Variable als auch eine der unabhängigen Variablen beeinflusst und nicht in das Modell aufgenommen wird, könnte der Koeffizient der unabhängigen Variable verzerrt sein. Die Einbeziehung der Kontrollvariable hilft, diese Verzerrung zu verringern oder zu beseitigen.
Erhöhung der Genauigkeit: Die Kontrolle zusätzlicher Variabilitätsquellen kann die Restvarianz verringern und so zu genaueren Schätzungen führen.
Berücksichtigung von Störeinflüssen: In vielen Fällen kann die Beziehung zwischen zwei Variablen aufgrund einer dritten Variable, die beide beeinflusst, verfälscht sein. Wenn du diese dritte Variable als Kontrolle einbeziehst, kann das helfen, die wahre Beziehung aufzudecken.

Beispiel für Kontrollvariablen

Nehmen wir zum Beispiel an, du untersuchst die Wirkung von Sport auf die Gewichtsabnahme. Das Alter könnte auch einen Einfluss auf die Gewichtsabnahme haben (der Stoffwechsel verändert sich mit dem Alter) und es könnte damit zusammenhängen, wie viel jemand trainiert (vielleicht trainieren jüngere Menschen mehr). Wenn du das Alter ignorierst, könntest du fälschlicherweise den gesamten Effekt auf die Gewichtsabnahme dem Sport zuschreiben, obwohl das Alter auch eine Rolle spielt. Wenn du das Alter als Kontrollvariable in deine Regression einbeziehst, kannst du die spezifischen Auswirkungen des Sports auf die Gewichtsabnahme besser isolieren.

Vorüberlegungen

Es ist jedoch wichtig, dass du dir gut überlegst, welche Kontrollvariablen du in ein Modell aufnimmst. Die Einbeziehung irrelevanter Kontrollvariablen kann das Modell unnötig verkomplizieren und die Aussagekraft der Analyse verringern. Andererseits kann das Weglassen wichtiger Kontrollvariablen zu verzerrten Schätzungen führen. Angemessene theoretische Überlegungen und empirische Diagnosetests können bei der Auswahl der Kontrollvariablen helfen.

Korrelation und Kausalität in der Regressionsanalyse

Bei der linearen Regression kann die unabhängige Variable zur Vorhersage der abhängigen Variable verwendet werden, wenn eine Korrelation zwischen den beiden Variablen besteht. Es ist jedoch wichtig zu wissen, dass eine Korrelation zwischen zwei Variablen nicht unbedingt Kausalität bedeutet. Was bedeutet das also? Wenn hohe Werte der einen Variable mit hohen Werten der anderen Variable einhergehen, bedeutet das nicht, dass die Werte der einen Variable steigen, weil die Werte der anderen Variable steigen.

Beispiele für die Regression:

Einfache Lineare Regression

Hat die wöchentliche Arbeitszeit einen Einfluss auf den Stundenlohn von Angestellten?

Multiple Lineare Regression

Haben die wöchentliche Arbeitszeit und das Alter von Angestellten einen Einfluss auf deren Stundenlohn?

Logistische Regression

Haben die wöchentliche Arbeitszeit und das Alter von Erwerbstätigen einen Einfluss auf die Wahrscheinlichkeit, dass sie Burnout gefährdet sind?

Abhängige Variable
Unabhängige Variablen

Korrelation und Kausalität bei der Regressionsanalyse

Im Falle der linearen Regression kann mit Hilfe der der unabhängigen Variable auf die abhängige Variable vorhergesagt werden, wenn es eine Korrelation zwischen den beiden Variablen gibt. Was aber unbedingt beachtet werden muss, ist, dass eine Korrelation zwischen zwei Variablen nicht zwangsläufig Kausalität bedeutet. Was heißt das nun? Wenn hohe Werte der einen Variable mit hohen Werten der anderen Variable einhergehen, bedeutet das nicht, dass die Werte auf der einen Variable ansteigen, weil die Werte auf der anderen Variable ansteigen.

Wie berechne ich eine Regression?

Du möchtest eine Regressionsanalyse berechnen? Dafür sind nur drei einfache Schritte notwendig:

1. Kopiere deine Daten in die Tabelle des Statistik Rechners
2. Wähle den Bereich der Regression aus
3. Wähle eine abhängige Variable und eine oder mehrere unabhängige Variablen aus

Liegt bei einer der unabhängigen Variablen kategorisches Skalenniveau (ordinal oder nominal) vor, werden automatisch Dummy-Variablen erzeugt und eine Referenzkategorie wird definiert. Sobald eine Variable nur Zahlen enthält, erkennt der Statistik-Rechner von DATAtab automatisch, dass es sich um eine metrische Variable handelt.