Logistische Regression

Beispieldaten Marketing Beispieldaten Medizin

Die logistische Regression ist ein Spezialfall der Regressionsanalyse und wird berechnet, wenn die abhängige Variable nominalskaliert ist. Dies ist z.B. bei der Variable "Kaufentscheidung" mit den beiden Ausprägungen "kauft ein Produkt" und "kauft kein Produkt" der Fall.

Die logistische Regressionsanalyse stellt somit das Gegenstück zur linearen Regression dar, bei der die abhängige Variable des Regressionsmodells zumindest intervallskaliert sein muss.

Mit der logistischen Regression ist es nun möglich, die abhängige Variable zu erklären bzw. die Eintrittswahrscheinlichkeit der Ausprägungen der Variable zu schätzen.

Beispiel aus der Betriebswirtschaft:

Für einen Online-Händler sollst du vorhersagen, welches Produkt eine bestimmte Kundin am ehesten kaufen würde. Hierfür erhältst du einen Datensatz mit den BesucherInnen der Website und den Verkäufen des Online-Händlers.

Beispiel aus der Medizin:

Du möchtest untersuchen, ob eine Person für eine bestimmte Krankheit "anfällig" oder "nicht anfällig" ist. Hierfür erhältst du einen Datensatz mit erkrankten und nicht erkrankten Personen sowie weiteren medizinischen Parametern.

Beispiel aus der Politikwissenschaft:

Im Rahmen einer Bevölkerungsumfrage möchtest du untersuchen, ob eine Person Partei A "wählen" oder "nicht wählen" würde, wenn am nächsten Wochenende Wahlen wären?

Was ist eine logistische Regression?

In der Grundform der logistischen Regression können dichotome Variablen (0 oder 1) prognostiziert werden. Hierfür wird die Wahrscheinlichkeit für das Eintreten der Ausprägung 1 (=Merkmal vorhanden) geschätzt.

Logistische Regression und dichotome Variablen

In der Medizin gilt es beispielsweise häufig herauszufinden, welche Variablen einen Einfluss auf das Auftreten einer Krankheit haben. Für diesen Fall könnte dann 0 für "nicht erkrankt" und 1 für "erkrankt" stehen. In weiterer Folge könnten nun der Einfluss des Alters, des Geschlechts sowie des Raucherstatus (RaucherIn oder nicht) auf diese bestimmte Krankheit überprüft werden.

Logistische Regression und Wahrscheinlichkeiten

Bei der linearen Regression wird mit Hilfe der unabhängigen Variablen (z.B. Alter und Geschlecht) der konkrete Wert der abhängigen Variable (z.B. Körpergewicht) geschätzt.

Bei der logistischen Regression hingegen ist die abhängige Variable dichotome (0 oder 1) und es wird die Wahrscheinlichkeit geschätzt, dass die Ausprägung 1 vorkommt. Um auf das obere Beispiel zurückzukommen, bedeutet dies: Wie wahrscheinlich ist es, das die Krankheit vorliegt, wenn die betrachtete Person ein Gewisse Alter, Geschlecht und Raucherstatus hat.

Logistische Regression berechnen

Zur Entwicklung eines logistischen Regressionsmodells wird die Gleichung der linearen Regression als ausgangspunkt verwendet.

Würde für die Lösung einer logistischen Regression jedoch einfach eine lineare Regression berechnet werden würde grafisch folgendes Ergebnis auftreten:

Wie in der Grafik ersichtlich ist, können nun jedoch Werte zwischen plus und minus unendlich auftreten. Ziel der logistischen Regression ist es allerdings, die Eintrittswahrscheinlichkeit zu schätzen und nicht den Wert der Variable selbst. Daher muss die diese Gleichung noch transformiert werden.

Hierfür ist es notwendig, den Wertebereich für die Vorhersage auf den Bereich zwischen 0 und 1 einzuschränken. Damit nur Werte zwischen 0 und 1 möglich sind, wird die logistische Funktion f verwendet.

Logistische Funktion

Das logistische Modell basiert auf der logistischen Funktion. Das Besondere an der logistischen Funktion ist, dass sie für Werte zwischen minus und plus unendlich immer nur Werte zwischen 0 und 1 annimmt.

Somit ist die logistische Funktion perfekt geeignet um die Wahrscheinlichkeit P(y=1) zu beschreiben. Wird nun die logistische Funktion auf die obere Regressionsgleichung angewandt ergibt sich:

Logistische Regression Wahrscheinlichkeit

Hiermit ist nun sichergestellt, dass, egal in welchem Bereich sich die x-Werte befinden, immer nur Zahlen zwischen 0 und 1 herauskommen. Der neue Graph sieht nun folgendermaßen aus:

Die Wahrscheinlichkeit, dass bei gegebenen Werten der unabhängigen Variable, die dichotome abhängige Variable y 0 oder 1 ist, ergibt sich mit

Kehren wir nun zum obenstehenden medizinischen Beispiel zurück. Um mithilfe der logistischen Regression die Wahrscheinlichkeit zu berechnen, ob eine Person "krank" oder "nicht krank" ist, müssen zunächst die Modellparameter b₁, b₂, b₃ und a bestimmt werden. Sind diese definiert, ergibt sich die Gleichung mit

Maximum-Likelihood-Methode

Um die Modellparameter für die logistische Regressionsgleichung zu bestimmen, wird die Maximum Likelihood Methode angewandt. Sie ist eine von mehreren Methoden in der Statistik, um die Parameter eines mathematischen Modells zu schätzen.

Ein anderer bekannter Schätzer ist die Methode der kleinsten Quadrate, welche bei der linearen Regression angewandt wird.

Die Likelihood-Funktion

Um die Maximum-Likelihood-Methode zu verstehen, führen wir die Likelihood Funktion L ein. L ist eine Funktion der unbekannten Parameter im Modell. Im Falle der logistischen Regression sind das b₁,... b_n, a. Daher kann man auch L(b₁,... b_n, a) schreiben bzw. L(θ) wenn die Parameter in θ zusammengefasst werden.

L(θ) gibt nun an, wie wahrscheinlich es ist, dass die beobachteten Daten eintreten. Mit der Veränderung von θ, verändert sich damit auch die Wahrscheinlichkeit, dass die Daten, so wie sie beobachtet worden sind, auftreten.

Maximum-Likelihood-Schätzer

Der Maximum Likelihood Schätzer kann bei der Schätzung von komplexen nichtlinearen wie auch linearen Modellen angewandt werden. Im Fall der logistischen Regression ist das Ziel, die Parameter b₁,... b_n, a zu finden, die die sogenannte Log Likelihood Funktion LL(θ) maximieren. Die Log Likelihood Funktion ist einfach der Logarithmus von L(θ).

Für diese nichtlineare Optimierung haben sich über die Jahre verschiedene Algorithmen etabliert, wie zum Beispiel das Stochastic Gradient Descent Verfahren.

Multinomiale logistische Regression

Solange die abhängige Variable zwei Ausprägungen hat (z. B. männlich, weiblich), also dichotom ist, wird die binäre logistische Regression berechnet. Hat die abhängige Variable jedoch mehr als zwei Ausprägungen muss eine multinomiale logistische Regression berechnet werden.

Ein Beispiel hierfür wäre die Frage, welches Mobilitäts-Konzept den Arbeitsweg einer Person beschreibt (Auto, Öffentliche Verkehrsmittel oder Fahrrad). Im Falle einer multinomialen logistischen Regression werden mehrere binär logistische Regressionen berechnet.

Jede Ausprägung der Mobilitätsvariable (Auto, öffentlicher Verkehr oder Fahrrad) wird in eine neue Variable überführt. Aus einer Mobilitätskonzeptvariablen werden drei neue Variablen:

Auto wird verwendet
Öffentliche Verkehrsmittel werden verwendet
Fahrrad wird verwendet

Jede dieser neuen Variablen hat dann nur noch die beiden Ausprägungen ja oder nein, z.B. die Variable "Auto wird verwendet" hat nur noch die beiden Antwortmöglichkeiten ja oder nein (Entweder es wird verwendet oder nicht). Für die eine Variable Mobilitätskonzept mit drei Ausprägungen ergeben sich somit drei neue Variablen mit jeweils zwei Ausprägungen ja und nein (0 und 1). Für diese drei Variablen werden nun drei logistische Regressionsmodelle erstellt.

Interpretation der Ergebnisse

Der Zusammenhang zwischen der abhängigen und unabhängigen Variable bei der logistischen Regression ist nicht linear. Daher können die Regressionskoeffizienten nicht auf die gleiche Weise wie bei der linearen Regression interpretiert werden. Bei der logistischen Regression werden aus diesem Grund die so genannten Odds (Chancen) interpretiert.

Lineare Regression:

Eine unabhängige Variable wird als "gut" bzw. "geeignet" bezeichnet, wenn sie stark mit der abhängigen Variable korreliert.

Logistischen Regression:

Eine unabhängige Variable wird als "gut" bzw. "geeignet" bezeichnet, wenn es durch sie möglich ist, die Gruppen der abhängigen Variable bedeutsam voneinander zu unterscheiden.

Die Odds werden berechnet, indem die beiden Wahrscheinlichkeiten y="1" und y="nicht 1" in ein Verhältnis gestellt werden:

Dieser Quotient kann dabei beliebige positive Werte annehmen. Wird dieser Wert nun logarithmiert, sind Werte zwischen minus und plus unendlich möglich

Diese logarithmierten Odds werden üblicherweise als "Logits" bezeichnet.

Pseudo-Bestimmtheitsmaß

Bei einer linearen Regression gibt das Bestimmtheitsmaß R² den Anteil der erklärten Varianz an. Bei der logistischen Regression ist die abhängige Variable nominal oder ordinal skaliert und es ist nicht möglich eine Varianz zu berechnen. Daher kann das Bestimmtheitsmaß bei der logistischen Regression nicht verwendet werden.

Um dennoch eine Aussage über die Güte des logistischen Regressionsmodells zu treffen, haben sich sogenannte Pseudo-Bestimmtheitsmaße etabliert. Diese werden auch Pseudo-R² genannt.

Pseudo-Bestimmtheitsmaße sind so konstruiert, dass sie genauso wie das ursprüngliche Bestimmtheitsmaß zwischen 0 und 1 liegen. Die bekanntesten Bestimmtheitsmaße sind das Cox und Snell R-Quadrat und das Nagelkerke R-Quadrat.

Nullmodell

Zur Berechnung des Cox und Snell R-Quadrat und des Nagelkerke R-Quadrat werden die Likelihood des sogenannten Nullmodells L₀ und die Likelihood L₁ des berechneten Modells benötigt. Das Nullmodell ist ein Modell, in welches keine unabhängigen Variablen einfließen. Bei L₁ handelt es sich um die Likelihood des Modells mit unabhängigen Variablen (Berechnetes Modell bzw. Gesamtmodell).

Cox und Snell R-Quadrat

Mithilfe des Cox und Snell R-Quadrats werden die Likelihood-Funktion des Nullmodells L₀ und jene des Gesamtmodells L₁ verglichen. Je besser das Gesamtmodell im Vergleich zum Nullmodell abschneidet, desto geringer ist das Verhältnis zwischen L₀ und L₁ . Das Cox und Snell R-Quadrat ergibt sich mit

Nagelkerkes R-Quadrat

Das Cox und Snell Pseudo-Bestimmtheitsmaß kann selbst bei einem Modell mit einer perfekten Vorhersage nicht den Wert 1 annehmen. Dies wird durch das R-Quadrat von Nagelkerke korrigiert. Das Nagelkerke Pseudo-Bestimmtheitsmaß ergibt 1, wenn das Gesamtmodell eine perfekte Vorhersage mit einer Wahrscheinlichkeit von 1 ergibt.

McFadden's R-Quadrat

Das McFadden's R-Quadrat verwendet auch das Nullmodell und das Gesamtmodell für die Berechnung des R².

Chi² Test und logistische Regression

Der Chi-quadrat Test sagt einem im Falle der logistischen Regression, ob das Modell insgesamt signifikant ist oder nicht.

Chi-Quadrat Test und logistische Regression

Hierbei werden zwei Modelle verglichen. In einem Modell werden alle unabhängigen Variablen verwendet und in dem anderen Modell werden die unabhängigen Variablen nicht verwendet.

Chi-2 Test und logistische Regression Interpretieren

Nun vergleicht der Chi-quadrat Test, wie gut die Vorhersage ist, wenn die abhängigen Variablen verwendet werden und wie gut sie ist, wenn die abhängigen Variablen nicht verwendet werden.

Der Chi2 Test sagt uns nun, ob es zwischen diesen beiden Ergebnissen einen signifikanten Unterschied gibt. Die Nullhypothese ist, dass beide Modelle gleich sind. Ist der p-Wert kleiner als 0,05 wird diese Nullhypothese abgelehnt.

Beispiel logistische Regression

Als Beispiel für die logistische Regression wird das Kaufverhalten in einem Online-Shop untersucht. Ziel ist es dabei, die Einflussfaktoren zu bestimmen, die dazu führen, dass eine Person "sofort", "zu einem späteren Zeitpunkt" oder "gar nicht" bei dem Online-Shop einkauft, nachdem sie die Webseite besucht hat. Hierfür stellt der Online-Shop die erhobenen Daten bereit. Die abhängige Variable hat also die folgenden drei Ausprägungen:

kauft sofort
kauft später
kauft gar nicht

Als unabhängige Variablen stehen das Geschlecht, das Alter, das Einkommen sowie die im Online-Shop verbrachte Zeit zur Verfügung.

Laden Sie diesen Datensatz und probieren Sie den Statistik Rechner von DATAtab aus

Kaufverhalten	Geschlecht	Alter	Verbrachte Zeit im Online-Shop
kauft sofort	weiblich	22	40
kauft sofort	weiblich	25	78
kauft sofort	männlich	18	65
...	...	...	...
kauft später	weiblich	27	28
kauft später	weiblich	27	15
kauft später	männlich	48	110
...	...	...	...
kauft gar nicht	weiblich	27	5
kauft gar nicht	männlich	65	80

Logistische Regression Ergebnisdarstellung

Logistische Regressionen lassen sich, ähnlich wie lineare Regressionsmodelle, mit DATAtab einfach und rasch berechnen. Wenn du das obenstehende Beispiel nachrechnen möchtest, kopierst du einfach die Tabelle zum Kaufverhalten im Online-Shop in den Statistik Rechner von DATAtab. Dann wählst du den Reiter Regression aus und klickst die gewünschten Variablen an. Schon erhältst du die untenstehenden Ergebnisse in Tabellenform.

Statistik leichtgemacht

Viele anschauliche Beispiele
Ideal für Prüfungen und Abschlussarbeiten
Statistik leichtgemacht auf 321 Seiten
4. überarbeitete Auflage (April 2024)
Nur 7,99 €

Leseprobe

"Super einfach geschrieben"

"Einfacher geht es nicht"

"Soviele hilfreiche Beispiele"

Fragebogen leichtgemacht

Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,

Viele anschauliche Beispiele
Ideal für die Abschlussarbeit
Fragebogen leichtgemacht auf 61 Seiten
3. überarbeitete Auflage (April 2024)
Nur 3,99 €

Leseprobe

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.

Leseprobe

Literatur

Statistik: Der Weg zur Datenanalyse.

Fahrmeir, L. Heumann, C. Künstler, R. Pigeot, I. & Tutz, G.

Zum Buch auf Amazon

Statistik für Human- und Sozialwissenschaftler: Limitierte Sonderausgabe.

Bortz, J. & Schuster, C.

Zum Buch auf Amazon

Logistische Regression

Beispiel aus der Betriebswirtschaft:

Beispiel aus der Medizin:

Beispiel aus der Politikwissenschaft:

Was ist eine logistische Regression?

Logistische Regression und Wahrscheinlichkeiten

Logistische Regression berechnen

Logistische Funktion

Maximum-Likelihood-Methode

Die Likelihood-Funktion

Maximum-Likelihood-Schätzer

Multinomiale logistische Regression

Interpretation der Ergebnisse

Lineare Regression:

Logistischen Regression:

Pseudo-Bestimmtheitsmaß

Nullmodell

Cox und Snell R-Quadrat

Nagelkerkes R-Quadrat

McFadden's R-Quadrat

Chi2 Test und logistische Regression

Beispiel logistische Regression

Logistische Regression Ergebnisdarstellung

Statistik leichtgemacht

Fragebogen leichtgemacht

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Literatur

Statistik: Der Weg zur Datenanalyse.

Fahrmeir, L. Heumann, C. Künstler, R. Pigeot, I. & Tutz, G.

Statistik für Human- und Sozialwissenschaftler: Limitierte Sonderausgabe.

Bortz, J. & Schuster, C.

Fit fürs Studium – Statistik: Alle Grundlagen verständlich erklärt. Geeignet für Studiengänge mit statistischen Methoden: VWL, BWL, Informatik etc.

Grabinger B.

Multivariate Analysemethoden: Eine anwendungsorientierte Einführung.

Backhaus, K. Erichson, B. Plinke, P. & Weiber, R.

evaluiert: erweitertes Planungsbuch für Evaluationen im Bildungsbereich

Balzer, L. & Beywl, W.

Basiswissen Medizinische Statistik.

Weiß, C.

Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften.

Doring, N. & Bortz, J.

Chi² Test und logistische Regression