Logistische Regression
Beispieldaten Marketing Beispieldaten MedizinDie logistische Regression ist ein Spezialfall der Regressionsanalyse und wird berechnet, wenn die abhängige Variable nominalskaliert ist. Dies ist z.B. bei der Variable "Kaufentscheidung" mit den beiden Ausprägungen "kauft ein Produkt" und "kauft kein Produkt" der Fall.
Die logistische Regressionsanalyse stellt somit das Gegenstück zur linearen Regression dar, bei der die abhängige Variable des Regressionsmodells zumindest intervallskaliert sein muss.
Mit der logistischen Regression ist es nun möglich, die abhängige Variable zu erklären bzw. die Eintrittswahrscheinlichkeit der Ausprägungen der Variable zu schätzen.
Beispiel aus der Betriebswirtschaft:
Für einen Online-Händler sollst du vorhersagen, welches Produkt eine bestimmte Kundin am ehesten kaufen würde. Hierfür erhältst du einen Datensatz mit den BesucherInnen der Website und den Verkäufen des Online-Händlers.
Beispiel aus der Medizin:
Du möchtest untersuchen, ob eine Person für eine bestimmte Krankheit "anfällig" oder "nicht anfällig" ist. Hierfür erhältst du einen Datensatz mit erkrankten und nicht erkrankten Personen sowie weiteren medizinischen Parametern.
Beispiel aus der Politikwissenschaft:
Im Rahmen einer Bevölkerungsumfrage möchtest du untersuchen, ob eine Person Partei A "wählen" oder "nicht wählen" würde, wenn am nächsten Wochenende Wahlen wären?
Was ist eine logistische Regression?
In der Grundform der logistischen Regression können dichotome Variablen (0 oder 1) prognostiziert werden. Hierfür wird die Wahrscheinlichkeit für das Eintreten der Ausprägung 1 (=Merkmal vorhanden) geschätzt.
In der Medizin gilt es beispielsweise häufig herauszufinden, welche Variablen einen Einfluss auf das Auftreten einer Krankheit haben. Für diesen Fall könnte dann 0 für "nicht erkrankt" und 1 für "erkrankt" stehen. In weiterer Folge könnten nun der Einfluss des Alters, des Geschlechts sowie des Raucherstatus (RaucherIn oder nicht) auf diese bestimmte Krankheit überprüft werden.
Logistische Regression und Wahrscheinlichkeiten
Bei der linearen Regression wird mit Hilfe der unabhängigen Variablen (z.B. Alter und Geschlecht) der konkrete Wert der abhängigen Variable (z.B. Körpergewicht) geschätzt.
Bei der logistischen Regression hingegen ist die abhängige Variable dichotome (0 oder 1) und es wird die Wahrscheinlichkeit geschätzt, dass die Ausprägung 1 vorkommt. Um auf das obere Beispiel zurückzukommen, bedeutet dies: Wie wahrscheinlich ist es, das die Krankheit vorliegt, wenn die betrachtete Person ein Gewisse Alter, Geschlecht und Raucherstatus hat.
Logistische Regression berechnen
Zur Entwicklung eines logistischen Regressionsmodells wird die Gleichung der linearen Regression als ausgangspunkt verwendet.
Würde für die Lösung einer logistischen Regression jedoch einfach eine lineare Regression berechnet werden würde grafisch folgendes Ergebnis auftreten:
Wie in der Grafik ersichtlich ist, können nun jedoch Werte zwischen plus und minus unendlich auftreten. Ziel der logistischen Regression ist es allerdings, die Eintrittswahrscheinlichkeit zu schätzen und nicht den Wert der Variable selbst. Daher muss die diese Gleichung noch transformiert werden.
Hierfür ist es notwendig, den Wertebereich für die Vorhersage auf den Bereich zwischen 0 und 1 einzuschränken. Damit nur Werte zwischen 0 und 1 möglich sind, wird die logistische Funktion f verwendet.
Logistische Funktion
Das logistische Modell basiert auf der logistischen Funktion. Das Besondere an der logistischen Funktion ist, dass sie für Werte zwischen minus und plus unendlich immer nur Werte zwischen 0 und 1 annimmt.
Somit ist die logistische Funktion perfekt geeignet um die Wahrscheinlichkeit P(y=1) zu beschreiben. Wird nun die logistische Funktion auf die obere Regressionsgleichung angewandt ergibt sich:
Hiermit ist nun sichergestellt, dass, egal in welchem Bereich sich die x-Werte befinden, immer nur Zahlen zwischen 0 und 1 herauskommen. Der neue Graph sieht nun folgendermaßen aus:
Die Wahrscheinlichkeit, dass bei gegebenen Werten der unabhängigen Variable, die dichotome abhängige Variable y 0 oder 1 ist, ergibt sich mit
Kehren wir nun zum obenstehenden medizinischen Beispiel zurück. Um mithilfe der logistischen Regression die Wahrscheinlichkeit zu berechnen, ob eine Person "krank" oder "nicht krank" ist, müssen zunächst die Modellparameter b1, b2, b3 und a bestimmt werden. Sind diese definiert, ergibt sich die Gleichung mit
Maximum-Likelihood-Methode
Um die Modellparameter für die logistische Regressionsgleichung zu bestimmen, wird die Maximum Likelihood Methode angewandt. Sie ist eine von mehreren Methoden in der Statistik, um die Parameter eines mathematischen Modells zu schätzen.
Ein anderer bekannter Schätzer ist die Methode der kleinsten Quadrate, welche bei der linearen Regression angewandt wird.
Die Likelihood-Funktion
Um die Maximum-Likelihood-Methode zu verstehen, führen wir die Likelihood Funktion L ein. L ist eine Funktion der unbekannten Parameter im Modell. Im Falle der logistischen Regression sind das b1,... bn, a. Daher kann man auch L(b1,... bn, a) schreiben bzw. L(θ) wenn die Parameter in θ zusammengefasst werden.
L(θ) gibt nun an, wie wahrscheinlich es ist, dass die beobachteten Daten eintreten. Mit der Veränderung von θ, verändert sich damit auch die Wahrscheinlichkeit, dass die Daten, so wie sie beobachtet worden sind, auftreten.
Maximum-Likelihood-Schätzer
Der Maximum Likelihood Schätzer kann bei der Schätzung von komplexen nichtlinearen wie auch linearen Modellen angewandt werden. Im Fall der logistischen Regression ist das Ziel, die Parameter b1,... bn, a zu finden, die die sogenannte Log Likelihood Funktion LL(θ) maximieren. Die Log Likelihood Funktion ist einfach der Logarithmus von L(θ).
Für diese nichtlineare Optimierung haben sich über die Jahre verschiedene Algorithmen etabliert, wie zum Beispiel das Stochastic Gradient Descent Verfahren.
Multinomiale logistische Regression
Solange die abhängige Variable zwei Ausprägungen hat (z. B. männlich, weiblich), also dichotom ist, wird die binäre logistische Regression berechnet. Hat die abhängige Variable jedoch mehr als zwei Ausprägungen muss eine multinomiale logistische Regression berechnet werden.
Ein Beispiel hierfür wäre die Frage, welches Mobilitäts-Konzept den Arbeitsweg einer Person beschreibt (Auto, Öffentliche Verkehrsmittel oder Fahrrad). Im Falle einer multinomialen logistischen Regression werden mehrere binär logistische Regressionen berechnet.
Jede Ausprägung der Mobilitätsvariable (Auto, öffentlicher Verkehr oder Fahrrad) wird in eine neue Variable überführt. Aus einer Mobilitätskonzeptvariablen werden drei neue Variablen:
- Auto wird verwendet
- Öffentliche Verkehrsmittel werden verwendet
- Fahrrad wird verwendet
Jede dieser neuen Variablen hat dann nur noch die beiden Ausprägungen ja oder nein, z.B. die Variable "Auto wird verwendet" hat nur noch die beiden Antwortmöglichkeiten ja oder nein (Entweder es wird verwendet oder nicht). Für die eine Variable Mobilitätskonzept mit drei Ausprägungen ergeben sich somit drei neue Variablen mit jeweils zwei Ausprägungen ja und nein (0 und 1). Für diese drei Variablen werden nun drei logistische Regressionsmodelle erstellt.
Interpretation der Ergebnisse
Der Zusammenhang zwischen der abhängigen und unabhängigen Variable bei der logistischen Regression ist nicht linear. Daher können die Regressionskoeffizienten nicht auf die gleiche Weise wie bei der linearen Regression interpretiert werden. Bei der logistischen Regression werden aus diesem Grund die so genannten Odds (Chancen) interpretiert.
Lineare Regression:
Eine unabhängige Variable wird als "gut" bzw. "geeignet" bezeichnet, wenn sie stark mit der abhängigen Variable korreliert.
Logistischen Regression:
Eine unabhängige Variable wird als "gut" bzw. "geeignet" bezeichnet, wenn es durch sie möglich ist, die Gruppen der abhängigen Variable bedeutsam voneinander zu unterscheiden.
Die Odds werden berechnet, indem die beiden Wahrscheinlichkeiten y="1" und y="nicht 1" in ein Verhältnis gestellt werden:
Dieser Quotient kann dabei beliebige positive Werte annehmen. Wird dieser Wert nun logarithmiert, sind Werte zwischen minus und plus unendlich möglich
Diese logarithmierten Odds werden üblicherweise als "Logits" bezeichnet.
Pseudo-Bestimmtheitsmaß
Bei einer linearen Regression gibt das Bestimmtheitsmaß R2 den Anteil der erklärten Varianz an. Bei der logistischen Regression ist die abhängige Variable nominal oder ordinal skaliert und es ist nicht möglich eine Varianz zu berechnen. Daher kann das Bestimmtheitsmaß bei der logistischen Regression nicht verwendet werden.
Um dennoch eine Aussage über die Güte des logistischen Regressionsmodells zu treffen, haben sich sogenannte Pseudo-Bestimmtheitsmaße etabliert. Diese werden auch Pseudo-R2 genannt.
Pseudo-Bestimmtheitsmaße sind so konstruiert, dass sie genauso wie das ursprüngliche Bestimmtheitsmaß zwischen 0 und 1 liegen. Die bekanntesten Bestimmtheitsmaße sind das Cox und Snell R-Quadrat und das Nagelkerke R-Quadrat.
Nullmodell
Zur Berechnung des Cox und Snell R-Quadrat und des Nagelkerke R-Quadrat werden die Likelihood des sogenannten Nullmodells L0 und die Likelihood L1 des berechneten Modells benötigt. Das Nullmodell ist ein Modell, in welches keine unabhängigen Variablen einfließen. Bei L1 handelt es sich um die Likelihood des Modells mit unabhängigen Variablen (Berechnetes Modell bzw. Gesamtmodell).
Cox und Snell R-Quadrat
Mithilfe des Cox und Snell R-Quadrats werden die Likelihood-Funktion des Nullmodells L0 und jene des Gesamtmodells L1 verglichen. Je besser das Gesamtmodell im Vergleich zum Nullmodell abschneidet, desto geringer ist das Verhältnis zwischen L0 und L1 . Das Cox und Snell R-Quadrat ergibt sich mit
Nagelkerkes R-Quadrat
Das Cox und Snell Pseudo-Bestimmtheitsmaß kann selbst bei einem Modell mit einer perfekten Vorhersage nicht den Wert 1 annehmen. Dies wird durch das R-Quadrat von Nagelkerke korrigiert. Das Nagelkerke Pseudo-Bestimmtheitsmaß ergibt 1, wenn das Gesamtmodell eine perfekte Vorhersage mit einer Wahrscheinlichkeit von 1 ergibt.
McFadden's R-Quadrat
Das McFadden's R-Quadrat verwendet auch das Nullmodell und das Gesamtmodell für die Berechnung des R2.
Chi2 Test und logistische Regression
Der Chi-quadrat Test sagt einem im Falle der logistischen Regression, ob das Modell insgesamt signifikant ist oder nicht.
Hierbei werden zwei Modelle verglichen. In einem Modell werden alle unabhängigen Variablen verwendet und in dem anderen Modell werden die unabhängigen Variablen nicht verwendet.
Nun vergleicht der Chi-quadrat Test, wie gut die Vorhersage ist, wenn die abhängigen Variablen verwendet werden und wie gut sie ist, wenn die abhängigen Variablen nicht verwendet werden.
Der Chi2 Test sagt uns nun, ob es zwischen diesen beiden Ergebnissen einen signifikanten Unterschied gibt. Die Nullhypothese ist, dass beide Modelle gleich sind. Ist der p-Wert kleiner als 0,05 wird diese Nullhypothese abgelehnt.
Beispiel logistische Regression
Als Beispiel für die logistische Regression wird das Kaufverhalten in einem Online-Shop untersucht. Ziel ist es dabei, die Einflussfaktoren zu bestimmen, die dazu führen, dass eine Person "sofort", "zu einem späteren Zeitpunkt" oder "gar nicht" bei dem Online-Shop einkauft, nachdem sie die Webseite besucht hat. Hierfür stellt der Online-Shop die erhobenen Daten bereit. Die abhängige Variable hat also die folgenden drei Ausprägungen:
- kauft sofort
- kauft später
- kauft gar nicht
Als unabhängige Variablen stehen das Geschlecht, das Alter, das Einkommen sowie die im Online-Shop verbrachte Zeit zur Verfügung.
Kaufverhalten | Geschlecht | Alter | Verbrachte Zeit im Online-Shop |
---|---|---|---|
kauft sofort | weiblich | 22 | 40 |
kauft sofort | weiblich | 25 | 78 |
kauft sofort | männlich | 18 | 65 |
... | ... | ... | ... |
kauft später | weiblich | 27 | 28 |
kauft später | weiblich | 27 | 15 |
kauft später | männlich | 48 | 110 |
... | ... | ... | ... |
kauft gar nicht | weiblich | 27 | 5 |
kauft gar nicht | männlich | 65 | 80 |
Logistische Regression Ergebnisdarstellung
Logistische Regressionen lassen sich, ähnlich wie lineare Regressionsmodelle, mit DATAtab einfach und rasch berechnen. Wenn du das obenstehende Beispiel nachrechnen möchtest, kopierst du einfach die Tabelle zum Kaufverhalten im Online-Shop in den Statistik Rechner von DATAtab. Dann wählst du den Reiter Regression aus und klickst die gewünschten Variablen an. Schon erhältst du die untenstehenden Ergebnisse in Tabellenform.
Statistik leichtgemacht
- Viele anschauliche Beispiele
- Ideal für Prüfungen und Abschlussarbeiten
- Statistik leichtgemacht auf 321 Seiten
- 4. überarbeitete Auflage (April 2024)
- Nur 7,99 €
"Super einfach geschrieben"
"Einfacher geht es nicht"
"Soviele hilfreiche Beispiele"
Fragebogen leichtgemacht
Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,
- Viele anschauliche Beispiele
- Ideal für die Abschlussarbeit
- Fragebogen leichtgemacht auf 61 Seiten
- 3. überarbeitete Auflage (April 2024)
- Nur 3,99 €
Statistik leichtgemacht
Endlich ohne Probleme Statistik verstehen.
Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.