Lineare Regression
Was ist eine linearen Regressionsanalyse?
Mithilfe der linearen Regressionsanalyse wird ein Modell erstellt, dass die Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen beschreibt. Je nachdem, ob es eine oder mehrere unabhängige Variablen gibt, wird zwischen der einfachen und der multiplen linearen Regressionsanalyse unterschieden.
Im ersten Fall, der einfachen linearen Regression, gilt es, den Einfluss einer unabhängigen Variable auf eine abhängige Variable zu untersuchen. Im zweiten Fall, der multiplen linearen Regression, wird der Einfluss mehrerer unabhängiger Variablen auf eine abhängige Variable analysiert.
Bei der linearen Regression ist die Voraussetzung, dass das Skalenniveau der abhängigen Variable intervallskaliert ist, sowie eine Normalverteilung vorliegt. Ist die abhängige Variable kategorisch, wird eine logistische Regression verwendet.
Beispiel: Einfache lineare Regression
Hat die Körpergröße einen Einfluss auf das Gewicht einer Person
Beispiel: Multiple lineare Regression
Haben die Körpergröße und das Geschlecht einen Einfluss auf das Gewicht einer Person?
- Abhängige Variable
- Unabhängige Variablen
Einfache Lineare Regression
Ziel der einfachen linearen Regression ist es, den Wert einer abhängigen Variable aufgrund einer unabhängigen Variable vorherzusagen. Je größer der lineare Zusammenhang zwischen der unabhängigen und der abhängigen Variable ist, desto genauer ist die Vorhersage. Dies bedeutet ebenfalls, dass ein umso größerer Anteil der Varianz der abhängigen Variable durch die unabhängige Variable erklärt werden kann. Visuell kann der Zusammenhang zwischen den Variablen in einem Streudiagramm dargestellt werden. Je größer der lineare Zusammenhang zwischen der abhängigen und der unabhängigen Variable ist, desto stärker liegen die Datenpunkte auf einer Geraden.
Die Aufgabe der einfachen linearen Regression ist es nun, genau jene Gerade zu bestimmen, die den linearen Zusammenhang zwischen der abhängigen und der unabhängigen Variable am besten beschreibt. Im Rahmen der linearen Regressionsanalyse wird also -grafisch ausgedrückt- eine Gerade in das Streudiagramm eingezeichnet. Um diese Gerade zu bestimmen, greift die lineare Regression auf die Methode der kleinsten Quadrate zurück.
Die Regressionsgerade kann durch folgende Gleichung beschrieben werden:
Unter „Regressionskoeffizienten“ wird verstanden:
- a: Der Schnittpunkt mit der y-Achse
- b: Die Steigung der Geraden
ist die jeweilige Schätzung des y-Wertes, also der abhängigen Variable. Dies bedeutet, dass für jeden x-Wert der zugehörige y-Wert geschätzt wird. Für unser Beispiel bedeutet dies, dass die Körpergröße jeder Person zur Schätzung deren Gewichts herangezogen wird.
Würden alle Punkte (Messwerte) genau auf einer Geraden liegen, wäre die Schätzung perfekt. Dies ist jedoch so gut wie nie der Fall und darum muss zumeist eine Gerade gefunden werden, die so nahe wie möglich an den einzelnen Datenpunkten liegt. Es wird somit versucht, den Fehler bei der Schätzung so gering wie möglich zu halten, so dass der Abstand zwischen geschätztem Wert und wahrem Wert so klein wie möglich ist. Dieser Abstand oder Fehler wird als Residuum bezeichnet und mit „e“ (engl. „error“) abgekürzt.
Bei der Berechnung der Regressionsgeraden wird versucht die Regressionskoeffizienten (a und b) so festzulegen, dass die Summe der quadrierten Residuen minimal ist. (=Kriterium der kleinsten Quadrate bzw. OLS- „Ordinary Least Squares“)
Der Regressionskoeffizient b kann nun verschiedene Vorzeichen haben, die sich wie folgt interpretieren lassen:
- b > 0: zwischen x und y liegt ein positiver Zusammenhang vor (je größer x, desto größer y)
- b < 0: zwischen x und y liegt ein negativer Zusammenhang vor (je größer x, desto kleiner y)
- b = 0: zwischen x und y besteht kein Zusammenhang
Standardisierte Regressionskoeffizienten werden üblicherweise mit dem Buchstaben „Beta“ abgekürzt. Dabei handelt es sich um Werte, die untereinander vergleichbar sind. Hier spielt die Messeinheit der Variablen keine Rolle mehr. Der standardisierte Regressionskoeffizient (Beta) wird von DATAtab automatisch ausgegeben.
Multiple lineare Regression
Im Gegensatz zur einfachen linearen Regression, ermöglicht die multiple lineare Regression die Berücksichtigung von mehr als zwei unabhängigen Variablen. Ziel ist es, eine Variable auf Basis von mehreren anderen Variablen zu schätzen. Die Variable, die geschätzt werden soll, wird dabei als abhängige Variable (Kriterium) bezeichnet. Die Variablen, welche zur Vorhersage herangezogen werden, heißen unabhängige Variablen (Prädiktoren).
Die multiple lineare Regression kommt häufig in der empirischen Sozialforschung sowie in der Marktforschung zum Einsatz. In beiden Bereichen ist es von Interesse herauszufinden, welchen Einfluss verschiedene Faktoren auf ein Variable haben. Welche Determinanten bedingen beispielsweise die Gesundheit oder das Kaufverhalten einer Person?
Marketing Beispiel:
Für einen Video Streaming Dienst möchtest du vorhersagen, wie oft im Monat eine Person Videos streamt. Hierfür erhältst du einen Datensatz der Besucherdaten (Alter, Einkommen, Geschlecht, ...).
Medizinisches Beispiel:
Du möchtest herausfinden, welche Faktoren einen Einfluss auf den Cholesterinspiegel von PatientInnen haben. Dazu analysierst du einen Datensatz von PatientInnen mit deren Cholesterinspiegel, Alter, Sportstunden pro Woche etc.
Die für die Berechnung einer multiplen Regression nötige Gleichung ergibt sich mit k abhängigen Variablen folgendermaßen:
Die Koeffizienten können nun ähnlich wie bei der linearen Regressionsgleichung interpretiert werden. Sind alle unabhängigen Variablen 0, ergibt sich der Wert a. Ändert sich eine unabhängige Variable um eine Einheit, gibt der zugehörige Koeffizient an, um wieviel sich die abhängige Variable verändert. Also ein Anstieg der unabhängigen Variable xi erhöht bzw. vermindert die abhängige Variable y um bi Einheiten.
Multivariate Regression vs. multiple Regression
Eine multiple Regression ist nicht zu verwechseln mit einer multivariaten Regression. In ersterem Fall wird der Einfluss von mehreren unabhängigen Variablen auf eine abhängige Variable untersucht. Im zweiten Fall werden mehrere Regressionsmodelle berechnet, um einen Schluss auf mehrere abhängige Variablen zu ermöglichen. Folglich wird bei einer multiplen Regression eine abhängige Variable berücksichtigt, bei einer multivariaten Regression hingegen, werden mehrere abhängige Variablen analysiert.
Bestimmtheitsmaß bzw. Varianzaufklärung
Um herauszufinden, wie gut das Regressionsmodell die abhängige Variable vorhersagen bzw. erklären kann, werden zwei Maße herangezogen. Dies ist einerseits das Bestimmtheitsmaß R2 und andererseits der Standardschätzfehler. Das Bestimmtheitsmaß R2, auch Varianzaufklärung genannt, gibt an, wie groß der Anteil der Varianz ist, der durch die unabhängigen Variablen erklärt werden kann. Je mehr Varianz erklärt werden kann, desto besser ist das Regressionsmodell. Zur Berechnung von R2 wird die Varianz des geschätzten Wertes mit der Varianz in den beobachteten Werten ins Verhältnis gesetzt:
Angepasstes R²
Das Bestimmtheitsmaß R² wird durch die Anzahl der verwendeten unabhängigen Variablen beeinflusst. Umso mehr unabhängigen Variablen in das Regressionsmodell aufgenommen werden, umso größer wird die Varianzaufklärung R². Um diesen Umstand Rechnung zu tragen, wird das korrigierte R² verwendet.
Standardschätzfehler
Der Standardschätzfehler gibt die Standardabweichung des Schätzfehlers an. Hierdurch erhält man eine Indikation wie stark die Vorhersage um den korrekten Wert schwankt. Grafisch interpretiert ist der Standardschätzfehler die Streuung der beobachteten Werte um die Regressionsgerade.
Das Bestimmtheitsmaß und der Standardschätzfehler werden für die einfache und multiple lineare Regression berechnet.
Standardisierter und unstandardisierte Regressionskoeffizient
Bei dem Regressionskoeffizienten unterscheidet man zwischen dem standardisierten und dem unstandardisierten Regressionskoeffizient. Die unstandardisierten Regressionskoeffizienten sind die Koeffizienten, die in der Regressionsgleichung vorkommen bzw. eingesetzt werden und werden mit b abgekürzt.
Die standardisierten Regressionskoeffizienten ergibt sich durch Multiplikation des Regressionskoeffizienten bi mit der Standardabweichung der abhängigen Variable Sxi und Division durch die Standardabweichung der jeweiligen unabhängigen Variable Sy.
Voraussetzungen der linearen Regression
Damit die Ergebnisse der Regressionsanalyse sinnvoll interpretiert werden können, müssen gewisse Voraussetzungen erfüllt sein.
- Linearität: Es muss ein linearer Zusammenhang zwischen der abhängigen und den unabhängigen Variablen bestehen.
- Homoskedastizität: Die Residuen müssen eine konstante Varianz haben.
- Normalität: Normalverteilte Fehlerkomponente
- Keine Multikollinearität: Keine hohe Korrelation zwischen den unabhängigen Variablen
- Keine Autokorrelation: Die Fehlerkomponente sollte keine Autokorrelation aufweisen.
Linearität
Bei der Linearen Regression wird eine Gerade durch die Daten gelegt. Diese Gerade soll alle Punkte möglichst gut abbilden. Sind die Punkte nichtlinear kann die Gerade diese Aufgabe nicht erfüllen.
In der linken oberen Grafik ist ein linearer Zusammenhang zwischen der abhängigen und der unabhängigen Variable zu sehen, hier kann die Regressionsgerade sinnvoll hineingelegt werden. In der rechten Grafik ist deutlich ersichtlich, dass es eine nicht lineare Beziehung zwischen der abhängigen und der unabhängigen Variable gibt. Es ist somit nicht möglich, die Regressionsgerade sinnvoll durch die Punkte zu legen. Daher können die Koeffizienten des Regressionsmodells nicht sinnvoll interpretiert werden bzw. es können Fehler bei der Vorhersage entstehen, die größer sind als gedacht.
Daher muss bei der linearen Regression zu Beginn geprüft werden, ob es einen linearen Zusammenhang zwischen der abhängigen und jeder einzelnen unabhängigen Variable gibt. Dies wird in der Regel grafisch geprüft.
Homoskedastizität
Da das Regressionsmodell in der Praxis nie exakt die abhängige Variable vorhersagt, tritt immer ein gewisser Fehler auf. Genau dieser Fehler muss eine konstante Varianz über den vorhergesagten Bereich haben.
Um Homoskedastizität, also die konstante Varianz der Residuen zu prüfen, wird die abhängige Variable auf der x-Achse und der Fehler auf der y-Achse aufgetragen. Nun soll der Fehler über den gesamten Bereich gleichmäßig streuen, dann liegt Homoskedastizität vor. Ist dies nicht der Fall, besteht Heteroskedastizität. Im Falle von Heteroskedastizität hat der Fehler unterschiedliche Varianzen, je nachdem in welchem Wertebereich sich die abhängige Variable befindet.
Normalverteilung des Fehlers
Die nächste Voraussetzung der linearen Regression ist, dass der Fehler Epsilon normalverteilt sein muss. Um dies zu prüfen, gibt es zwei Wege: den analytischen und den grafischen Weg. Beim analytischen Weg kann entweder der Kolmogorov-Smirnow Test oder der Shapiro-Wilk Test berechnet werden. Ist der p-Wert größer als 0,05, liegt keine Abweichung der Daten von der Normalverteilung vor und es kann von einer Normalverteilung der Daten ausgegangen werden.
Insgesamt zeigt sich jedoch der Trend, dass analytische Tests immer weniger verwendet werden, da sie dazu tendieren, bei kleinen Stichproben Normalverteilung zu attestieren und bei großen Stichproben sehr schnell signifikant zu werden. Dies bedeutet, dass sie die Nullhypothese ablehnen, die Daten seien normalverteilt. Daher wird immer häufiger die grafische Variante verwendet.
Bei der grafischen Variante wird entweder das Histogramm betrachtet oder noch besser der sogenannte Q-Q Plot oder Quantil-Quantil-Plot. Je mehr die Daten auf der Linie liegen, desto besser ist die Normalverteilung.
Multikollinearität
Multikollinearität bedeutet, dass zwei oder mehrere unabhängige Variablen stark miteinander korrelieren. Das Problem des Vorliegens einer hohen Multikollinearität ist, dass der Effekt der einzelnen unabhängigen Variablen auf die abhängige Variable nicht klar von einander getrennt werden kann.
Liegt z.B. eine hohe Korrelation zwischen x1 und x2 vor, dann ist es schwer möglich, b1 und b2 zu bestimmen. Sind beide z.B. komplett gleich, weiß das Regressionsmodell nicht, wie groß nun b1 und wie groß b2 sein sollen. Das Regressionsmodell wird damit instabil.
Dies ist nicht problematisch, wenn das Regressionsmodell lediglich für eine Vorhersage verwendet wird. Bei einer Vorhersage ist eben nur diese von Interesse, aber nicht die Stärke des Einflusses der jeweiligen Variablen. Wird das Regressionsmodell jedoch verwendet, um den Einfluss der unabhängigen Variablen auf die abhängige Variable zu messen, darf keine Multikollinearität vorliegen, denn sonst können die Koeffizienten nicht sinnvoll interpretiert werden.
Genauere Informationen zu Multikollinearität findest du hierSignifikanztest und Regression
Die Regressionsanalyse wird oft durchgeführt, um ausgehend von einer Stichprobe Aussagen über die Grundgesamtheit zu treffen. Daher werden die Regressionskoeffizienten anhand der Daten aus der Stichprobe berechnet. Um auszuschließen, dass die Regressionskoeffizienten rein zufällig entstanden sind und in einer anderen Stichprobe völlig anders ausfallen würden, werden die Ergebnisse mit Signifikanztests statistisch geprüft. Diese Prüfung findet auf den folgenden beiden Ebenen statt:
- Signifikanztest für das ganze Regressionsmodell
- Signifikanztest für die Regressionskoeffizienten
Zu beachten ist dabei, dass die Voraussetzungen aus dem vorherigen Abschnitt erfüllt sein müssen.
Signifikanztest für das Regressionsmodell
Es wird geprüft, ob das Bestimmtheitsmaß R2 in der Grundgesamtheit von null abweicht. Die Nullhypothese ist also, dass das Bestimmtheitsmaß R2 in der Grundgesamtheit null ist. Um die Nullhypothese zu bestätigen oder zu verwerfen, wird der folgende F-Test berechnet
Der berechnete F-Wert wird nun mit dem kritischen F-Wert verglichen. Ist der berechnete F-Wert größer als der kritischen F-Wert, wird die Nullhypothese verworfen und das R2 weicht in der Grundgesamtheit von null ab. Der kritische F-Wert kann aus der F-Verteilungs-Tabelle abgelesen werden. Die Zählerfreiheitsgrade sind k und die Nenner-Freiheitsgrade sind n-k-1.
Signifikanztest für die Regressionskoeffizienten
In einem weiteren Schritt wird geprüft, welche Variablen einen signifikanten Beitrag zur Vorhersage der abhängigen Variable leisten können. Dies geschieht indem geprüft wird, ob die Steigungen (Regressionskoeffizienten) auch in der Grundgesamtheit von null abweichen. Dazu wird die folgende Teststatistik berechnet:
wobei bj der j. Regressionskoeffizient ist und sb_j der Standardfehler von bj. Diese Teststatistik ist t-verteilt mit den Freiheitsgraden n-k-1. Der kritische t-Wert kann aus der t-Verteilungs Tabelle abgelesen werden.
Lineare Regression mit DATAtab berechnen
Rechne das Beispiel direkt mit DATAtab kostenlos nach:
Lineare Regression Datensatz ladenAls Beispiel für die Lineare Regression wird ein Modell aufgestellt, welches das Körpergewicht einer Person vorhersagen soll. Die abhängige Variable ist somit das Körpergewicht, als unabhängige Variablen werden die Körpergröße, das Alter und das Geschlecht gewählt. Zur Verfügung steht der folgende fiktive Beispiel-Datensatz:
Gewicht | Größe | Alter | Geschlecht |
---|---|---|---|
79 | 1,80 | 35 | männlich |
69 | 1,68 | 39 | männlich |
73 | 1,82 | 25 | männlich |
95 | 1,70 | 60 | männlich |
82 | 1,87 | 27 | männlich |
55 | 1,55 | 18 | weiblich |
69 | 1,50 | 89 | weiblich |
71 | 1,78 | 42 | weiblich |
64 | 1,67 | 16 | weiblich |
69 | 1,64 | 52 | weiblich |
Nachdem du die Daten in den Statistik Rechner kopiert hast, musst du die relevanten Variablen auswählen. Danach erhältst du die Ergebnisse in Tabellenform.
Interpretation der Ergebnisse
Aus der Tabelle ist zu entnehmen, dass 75,4 % der Schwankung des Gewichts durch die Größe, das Alter und das Geschlecht bestimmt werden können. Das Modell verschätzt sich im Mittel um 6,587 bei der Vorhersage des Gewichts einer Person. Die Regressionsgleichung ergibt sich folgendermaßen:
Gewicht = 47,379 · Größe + 0,297 · Alter + 8,922 · ist_männlich -24,41
Vergrößert sich nun beispielsweise das Alter um ein Jahr, erhöht sich laut Modell das Gewicht um 0,297 kg. Im Falle der dichotomen Variable Geschlecht ist die Steigung als Differenzbetrag zu interpretieren, laut Modell wiegt ein Mann 8,922 kg mehr als eine Frau. Sind alle unabhängigen Variablen null, ergibt sich ein Gewicht von -24,41.
Die standardisierten Koeffizienten Beta sind messgrößenunabhängig und liegen immer zwischen -1 und 1. Je größer der Betrag von Beta ist, desto größer ist der Beitrag der jeweiligen unabhängigen Variable zur Aufklärung der Varianz der abhängigen Variable. In dieser Regressionsanalyse hat die Variable Alter den größten Einfluss auf die Variable Gewicht.
Die berechneten Koeffizienten beziehen sich auf die Stichprobe, die für die Berechnung der Regressionsanalyse herangezogen worden ist. Daher ist von Interesse, ob die B-Werte nur zufällig von Null abweichen oder ob dies auch in der Grundgesamtheit der Fall ist. Dazu wird die Nullhypothese aufgestellt, dass der jeweilige berechnete B-Wert in der Grundgesamtheit gleich null ist. Ist dies der Fall, bedeutet dies, dass die jeweilige unabhängige Variable keinen signifikanten Einfluss auf die abhängige Variable hat.
Ob eine Variable einen signifikanten Einfluss hat, gibt der p-Wert an. p-Werte kleiner als 0,05 werden als signifikant betrachtet. In diesem Beispiel kann nur das Alter als signifikant eingeordnet werden.
Ergebnisse der Regression präsentieren
Bei der Darstellung deiner Ergebnisse solltest du den geschätzten Effekt, also den Regressionskoeffizienten, den Standardfehler der Schätzung und den p-Wert angeben. Natürlich ist es auch nützlich, die Ergebnisse der Regression zu interpretieren, damit jeder weiß, was die Regressionskoeffizienten bedeuten.
Zum Beispiel: Es wurde ein signifikanten Zusammenhang (p < .041) zwischen dem Gewicht einer Person und dem Alter einer Person gefunden.
Wenn eine einfache Lineare Regression berechnet wurde, kann das Ergebnis auch mithilfe eines Streudiagrammes dargestellt werden.
Statistik leichtgemacht
- Viele anschauliche Beispiele
- Ideal für Prüfungen und Abschlussarbeiten
- Statistik leichtgemacht auf 321 Seiten
- 4. überarbeitete Auflage (April 2024)
- Nur 7,99 €
"Super einfach geschrieben"
"Einfacher geht es nicht"
"Soviele hilfreiche Beispiele"
Fragebogen leichtgemacht
Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,
- Viele anschauliche Beispiele
- Ideal für die Abschlussarbeit
- Fragebogen leichtgemacht auf 61 Seiten
- 3. überarbeitete Auflage (April 2024)
- Nur 3,99 €
Statistik leichtgemacht
Endlich ohne Probleme Statistik verstehen.
Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.