Menu

Logistische Regression

Beispieldaten Marketing Beispieldaten Medizin

Die logistische Regression ist ein Spezialfall der Regressionsanalyse und wird berechnet, wenn die abhängige Variable nominalskaliert ist. Dies ist z.B. bei der Variable "Kaufentscheidung" mit den beiden Ausprägungen "kauft ein Produkt" und "kauft kein Produkt" der Fall.

Die logistische Regressionsanalyse stellt somit das Gegenstück zur linearen Regression dar, bei der die abhängige Variable des Regressionsmodells zumindest intervallskaliert sein muss.

Logistische Regression

Mit der logistischen Regression ist es nun möglich, die abhängige Variable zu erklären bzw. die Eintrittswahrscheinlichkeit der Ausprägungen der Variable zu schätzen.

Beispiel aus der Betriebswirtschaft:

Für einen Online-Händler sollst du vorhersagen, welches Produkt eine bestimmte Kundin am ehesten kaufen würde. Hierfür erhältst du einen Datensatz mit den BesucherInnen der Website und den Verkäufen des Online-Händlers.

Beispiel aus der Medizin:

Du möchtest untersuchen, ob eine Person für eine bestimmte Krankheit "anfällig" oder "nicht anfällig" ist. Hierfür erhältst du einen Datensatz mit erkrankten und nicht erkrankten Personen sowie weiteren medizinischen Parametern.

Beispiel aus der Politikwissenschaft:

Im Rahmen einer Bevölkerungsumfrage möchtest du untersuchen, ob eine Person Partei A "wählen" oder "nicht wählen" würde, wenn am nächsten Wochenende Wahlen wären?

Was ist eine logistische Regression?

In der Grundform der logistischen Regression können dichotome Variablen (0 oder 1) prognostiziert werden. Hierfür wird die Wahrscheinlichkeit für das Eintreten der Ausprägung 1 (=Merkmal vorhanden) geschätzt.

Logistische Regression und dichotome Variablen

In der Medizin gilt es beispielsweise häufig herauszufinden, welche Variablen einen Einfluss auf das Auftreten einer Krankheit haben. Für diesen Fall könnte dann 0 für "nicht erkrankt" und 1 für "erkrankt" stehen. In weiterer Folge könnten nun der Einfluss des Alters, des Geschlechts sowie des Raucherstatus (RaucherIn oder nicht) auf diese bestimmte Krankheit überprüft werden.

Logistische Regression Beispiel

Logistische Regression und Wahrscheinlichkeiten

Bei der linearen Regression wird mit Hilfe der unabhängigen Variablen (z.B. Alter und Geschlecht) der konkrete Wert der abhängigen Variable (z.B. Körpergewicht) geschätzt.

Bei der logistischen Regression hingegen ist die abhängige Variable dichotome (0 oder 1) und es wird die Wahrscheinlichkeit geschätzt, dass die Ausprägung 1 vorkommt. Um auf das obere Beispiel zurückzukommen, bedeutet dies: Wie wahrscheinlich ist es, das die Krankheit vorliegt, wenn die betrachtete Person ein Gewisse Alter, Geschlecht und Raucherstatus hat.

Logistische Regression berechnen

Zur Entwicklung eines logistischen Regressionsmodells wird die Gleichung der linearen Regression als ausgangspunkt verwendet.

lineare Regressionsgleichung

Würde für die Lösung einer logistischen Regression jedoch einfach eine lineare Regression berechnet werden würde grafisch folgendes Ergebnis auftreten:

Logistische Regression Herleitung

Wie in der Grafik ersichtlich ist, können nun jedoch Werte zwischen plus und minus unendlich auftreten. Ziel der logistischen Regression ist es allerdings, die Eintrittswahrscheinlichkeit zu schätzen und nicht den Wert der Variable selbst. Daher muss die diese Gleichung noch transformiert werden.

Hierfür ist es notwendig, den Wertebereich für die Vorhersage auf den Bereich zwischen 0 und 1 einzuschränken. Damit nur Werte zwischen 0 und 1 möglich sind, wird die logistische Funktion f verwendet.

Logistische Funktion

Das logistische Modell basiert auf der logistischen Funktion. Das Besondere an der logistischen Funktion ist, dass sie für Werte zwischen minus und plus unendlich immer nur Werte zwischen 0 und 1 annimmt.

logistische Verteilungsfunktion

Somit ist die logistische Funktion perfekt geeignet um die Wahrscheinlichkeit P(y=1) zu beschreiben. Wird nun die logistische Funktion auf die obere Regressionsgleichung angewandt ergibt sich:

Logistische Regression Wahrscheinlichkeit

Hiermit ist nun sichergestellt, dass, egal in welchem Bereich sich die x-Werte befinden, immer nur Zahlen zwischen 0 und 1 herauskommen. Der neue Graph sieht nun folgendermaßen aus:

Logistische Regression

Die Wahrscheinlichkeit, dass bei gegebenen Werten der unabhängigen Variable, die dichotome abhängige Variable y 0 oder 1 ist, ergibt sich mit

Logistische Regression Wahrscheinlichkeit

Kehren wir nun zum obenstehenden medizinischen Beispiel zurück. Um mithilfe der logistischen Regression die Wahrscheinlichkeit zu berechnen, ob eine Person "krank" oder "nicht krank" ist, müssen zunächst die Modellparameter b1, b2, b3 und a bestimmt werden. Sind diese definiert, ergibt sich die Gleichung mit

Logistische Regressionsanalyse

Maximum-Likelihood-Methode

Um die Modellparameter für die logistische Regressionsgleichung zu bestimmen, wird die Maximum Likelihood Methode angewandt. Sie ist eine von mehreren Methoden in der Statistik, um die Parameter eines mathematischen Modells zu schätzen.

Ein anderer bekannter Schätzer ist die Methode der kleinsten Quadrate, welche bei der linearen Regression angewandt wird.

Die Likelihood-Funktion

Um die Maximum-Likelihood-Methode zu verstehen, führen wir die Likelihood Funktion L ein. L ist eine Funktion der unbekannten Parameter im Modell. Im Falle der logistischen Regression sind das b1,... bn, a. Daher kann man auch L(b1,... bn, a) schreiben bzw. L(θ) wenn die Parameter in θ zusammengefasst werden.

L(θ) gibt nun an, wie wahrscheinlich es ist, dass die beobachteten Daten eintreten. Mit der Veränderung von θ, verändert sich damit auch die Wahrscheinlichkeit, dass die Daten, so wie sie beobachtet worden sind, auftreten.

Maximum Likelihood Schätzer

Maximum-Likelihood-Schätzer

Der Maximum Likelihood Schätzer kann bei der Schätzung von komplexen nichtlinearen wie auch linearen Modellen angewandt werden. Im Fall der logistischen Regression ist das Ziel, die Parameter b1,... bn, a zu finden, die die sogenannte Log Likelihood Funktion LL(θ) maximieren. Die Log Likelihood Funktion ist einfach der Logarithmus von L(θ).

Für diese nichtlineare Optimierung haben sich über die Jahre verschiedene Algorithmen etabliert, wie zum Beispiel das Stochastic Gradient Descent Verfahren.

Multinomiale logistische Regression

Solange die abhängige Variable zwei Ausprägungen hat (z. B. männlich, weiblich), also dichotom ist, wird die binäre logistische Regression berechnet. Hat die abhängige Variable jedoch mehr als zwei Ausprägungen muss eine multinomiale logistische Regression berechnet werden.

Ein Beispiel hierfür wäre die Frage, welches Mobilitäts-Konzept den Arbeitsweg einer Person beschreibt (Auto, Öffentliche Verkehrsmittel oder Fahrrad). Im Falle einer multinomialen logistischen Regression werden mehrere binär logistische Regressionen berechnet.

Jede Ausprägung der Mobilitätsvariable (Auto, öffentlicher Verkehr oder Fahrrad) wird in eine neue Variable überführt. Aus einer Mobilitätskonzeptvariablen werden drei neue Variablen:

  • Auto wird verwendet
  • Öffentliche Verkehrsmittel werden verwendet
  • Fahrrad wird verwendet

Jede dieser neuen Variablen hat dann nur noch die beiden Ausprägungen ja oder nein, z.B. die Variable "Auto wird verwendet" hat nur noch die beiden Antwortmöglichkeiten ja oder nein (Entweder es wird verwendet oder nicht). Für die eine Variable Mobilitätskonzept mit drei Ausprägungen ergeben sich somit drei neue Variablen mit jeweils zwei Ausprägungen ja und nein (0 und 1). Für diese drei Variablen werden nun drei logistische Regressionsmodelle erstellt.

Interpretation der Ergebnisse

Der Zusammenhang zwischen der abhängigen und unabhängigen Variable bei der logistischen Regression ist nicht linear. Daher können die Regressionskoeffizienten nicht auf die gleiche Weise wie bei der linearen Regression interpretiert werden. Bei der logistischen Regression werden aus diesem Grund die so genannten Odds (Chancen) interpretiert.

Lineare Regression:

Eine unabhängige Variable wird als "gut" bzw. "geeignet" bezeichnet, wenn sie stark mit der abhängigen Variable korreliert.

Logistischen Regression:

Eine unabhängige Variable wird als "gut" bzw. "geeignet" bezeichnet, wenn es durch sie möglich ist, die Gruppen der abhängigen Variable bedeutsam voneinander zu unterscheiden.

Die Odds werden berechnet, indem die beiden Wahrscheinlichkeiten y="1" und y="nicht 1" in ein Verhältnis gestellt werden:

Odds

Dieser Quotient kann dabei beliebige positive Werte annehmen. Wird dieser Wert nun logarithmiert, sind Werte zwischen minus und plus unendlich möglich

Odds

Diese logarithmierten Odds werden üblicherweise als "Logits" bezeichnet.

Pseudo-Bestimmtheitsmaß

Bei einer linearen Regression gibt das Bestimmtheitsmaß R2 den Anteil der erklärten Varianz an. Bei der logistischen Regression ist die abhängige Variable nominal oder ordinal skaliert und es ist nicht möglich eine Varianz zu berechnen. Daher kann das Bestimmtheitsmaß bei der logistischen Regression nicht verwendet werden.

Um dennoch eine Aussage über die Güte des logistischen Regressionsmodells zu treffen, haben sich sogenannte Pseudo-Bestimmtheitsmaße etabliert. Diese werden auch Pseudo-R2 genannt.

Pseudo-Bestimmtheitsmaße sind so konstruiert, dass sie genauso wie das ursprüngliche Bestimmtheitsmaß zwischen 0 und 1 liegen. Die bekanntesten Bestimmtheitsmaße sind das Cox und Snell R-Quadrat und das Nagelkerke R-Quadrat.

Nullmodell

Zur Berechnung des Cox und Snell R-Quadrat und des Nagelkerke R-Quadrat werden die Likelihood des sogenannten Nullmodells L0 und die Likelihood L1 des berechneten Modells benötigt. Das Nullmodell ist ein Modell, in welches keine unabhängigen Variablen einfließen. Bei L1 handelt es sich um die Likelihood des Modells mit unabhängigen Variablen (Berechnetes Modell bzw. Gesamtmodell).

Cox und Snell R-Quadrat

Mithilfe des Cox und Snell R-Quadrats werden die Likelihood-Funktion des Nullmodells L0 und jene des Gesamtmodells L1 verglichen. Je besser das Gesamtmodell im Vergleich zum Nullmodell abschneidet, desto geringer ist das Verhältnis zwischen L0 und L1 . Das Cox und Snell R-Quadrat ergibt sich mit

Cox und Snell R-Quadrat

Nagelkerkes R-Quadrat

Das Cox und Snell Pseudo-Bestimmtheitsmaß kann selbst bei einem Modell mit einer perfekten Vorhersage nicht den Wert 1 annehmen. Dies wird durch das R-Quadrat von Nagelkerke korrigiert. Das Nagelkerke Pseudo-Bestimmtheitsmaß ergibt 1, wenn das Gesamtmodell eine perfekte Vorhersage mit einer Wahrscheinlichkeit von 1 ergibt.

Nagelkerkes R-Quadrat

McFadden's R-Quadrat

Das McFadden's R-Quadrat verwendet auch das Nullmodell und das Gesamtmodell für die Berechnung des R2.

McFadden's R-Quadrat

Chi2 Test und logistische Regression

Der Chi-quadrat Test sagt einem im Falle der logistischen Regression, ob das Modell insgesamt signifikant ist oder nicht.

Chi-Quadrat Test und logistische Regression

Hierbei werden zwei Modelle verglichen. In einem Modell werden alle unabhängigen Variablen verwendet und in dem anderen Modell werden die unabhängigen Variablen nicht verwendet.

Chi-2 Test und logistische Regression Interpretieren

Nun vergleicht der Chi-quadrat Test, wie gut die Vorhersage ist, wenn die abhängigen Variablen verwendet werden und wie gut sie ist, wenn die abhängigen Variablen nicht verwendet werden.

Der Chi2 Test sagt uns nun, ob es zwischen diesen beiden Ergebnissen einen signifikanten Unterschied gibt. Die Nullhypothese ist, dass beide Modelle gleich sind. Ist der p-Wert kleiner als 0,05 wird diese Nullhypothese abgelehnt.

Beispiel logistische Regression

Als Beispiel für die logistische Regression wird das Kaufverhalten in einem Online-Shop untersucht. Ziel ist es dabei, die Einflussfaktoren zu bestimmen, die dazu führen, dass eine Person "sofort", "zu einem späteren Zeitpunkt" oder "gar nicht" bei dem Online-Shop einkauft, nachdem sie die Webseite besucht hat. Hierfür stellt der Online-Shop die erhobenen Daten bereit. Die abhängige Variable hat also die folgenden drei Ausprägungen:

  • kauft sofort
  • kauft später
  • kauft gar nicht

Als unabhängige Variablen stehen das Geschlecht, das Alter, das Einkommen sowie die im Online-Shop verbrachte Zeit zur Verfügung.

Kaufverhalten Geschlecht Alter Verbrachte Zeit im Online-Shop
kauft sofort weiblich 22 40
kauft sofort weiblich 25 78
kauft sofort männlich 18 65
... ... ... ...
kauft später weiblich 27 28
kauft später weiblich 27 15
kauft später männlich 48 110
... ... ... ...
kauft gar nicht weiblich 27 5
kauft gar nicht männlich 65 80

Logistische Regression Ergebnisdarstellung

Logistische Regressionen lassen sich, ähnlich wie lineare Regressionsmodelle, mit DATAtab einfach und rasch berechnen. Wenn du das obenstehende Beispiel nachrechnen möchtest, kopierst du einfach die Tabelle zum Kaufverhalten im Online-Shop in den Statistik Rechner von DATAtab. Dann wählst du den Reiter Regression aus und klickst die gewünschten Variablen an. Schon erhältst du die untenstehenden Ergebnisse in Tabellenform.

Logistische Regression Ergebnisdarstellung

Statistik leichtgemacht

  • Viele anschauliche Beispiele
  • Ideal für Prüfungen und Abschlussarbeiten
  • Statistik leichtgemacht auf 321 Seiten
  • 4. überarbeitete Auflage (April 2024)
  • Nur 7,99 €
Leseprobe
Datatab

"Super einfach geschrieben"

"Einfacher geht es nicht"

"Soviele hilfreiche Beispiele"

Fragebogen leichtgemacht

Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,

  • Viele anschauliche Beispiele
  • Ideal für die Abschlussarbeit
  • Fragebogen leichtgemacht auf 61 Seiten
  • 3. überarbeitete Auflage (April 2024)
  • Nur 3,99 €
Leseprobe
Datatab

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.

Datatab
Leseprobe

Literatur

Statistik: Der Weg zur Datenanalyse.
Fahrmeir, L. Heumann, C. Künstler, R. Pigeot, I. & Tutz, G.
Zum Buch auf Amazon
Statistik für Human- und Sozialwissenschaftler: Limitierte Sonderausgabe.
Bortz, J. & Schuster, C.
Zum Buch auf Amazon
Fit fürs Studium – Statistik: Alle Grundlagen verständlich erklärt. Geeignet für Studiengänge mit statistischen Methoden: VWL, BWL, Informatik etc.
Grabinger B.
Zum Buch auf Amazon
Multivariate Analysemethoden: Eine anwendungsorientierte Einführung.
Backhaus, K. Erichson, B. Plinke, P. & Weiber, R.
Zum Buch auf Amazon
evaluiert: erweitertes Planungsbuch für Evaluationen im Bildungsbereich
Balzer, L. & Beywl, W.
Zum Buch auf Amazon
Basiswissen Medizinische Statistik.
Weiß, C.
Zum Buch auf Amazon
Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften.
Doring, N. & Bortz, J.
Zum Buch auf Amazon

DATAtab zitieren: DATAtab Team (2024). DATAtab: Online Statistics Calculator. DATAtab e.U. Graz, Austria. URL https://datatab.de

Kontakt & Support Beratung FAQ & About Us Statistik Software Impressum & Datenschutz