Menu

ROC-Kurve

Datensatz laden

Eine ROC-Kurve ist eine grafische Darstellung der Leistungsfähigkeit eines binären Klassifizierungsmodells für alle Klassifizierungsschwellenwerte. Hierbei steht ROC für Receiver Operating Characteristic.

Beispiel für eine ROC-Kurve

Wir möchten im Rahmen einer Vorsorgeuntersuchung klassifizieren, ob eine Person an Krebs erkrankt ist oder nicht.

binäres Klassifizierungsmodell

Diese Klassifikation geschieht mit Hilfe eines gewissen Blutwertes, bei dem hohe Werte auf eine Krebserkrankung hindeuten. Die Frage ist nun, welchen Wert wir als Klassifizierungsschwelle wählen. Also ab welchem Wert sagen wir eine Erkrankung vorher?

Klassifizierungsschwelle

Hierfür erhalten wir von 10 Personen Daten darüber, wie hoch der Blutwert ist und ob eine Erkrankung vorliegt oder nicht.

Wir könnten nun z.B. einen Klassifizierungsschwellenwerte von 45 wählen. In diesem Fall würden wir von den 5 erkrankten Personen 4 richtig als „krank“ klassifizieren und 1 falsch als „gesund“. Wir haben also 4 von 5 richtig als „krank“ klassifiziert.

Klassifizierungsschwellenwert ROC-Kurve

Dieser Wert wird als True Positive Rate (TPR) bezeichnet und ist gleich die Sensitivität.

Andererseits, haben wir von den 5 gesunden Personen 2 falsch als „krank“ klassifiziert und 3 richtig als „gesund“. Wir haben also 2 von 5 falsch als „krank“ klassifiziert. Dieser Wert wird als False Positive Rate (FPR) bezeichnet.

Klassifizierungsschwelle False Positive Rate

Für einen Schwellenwert von 45 erhalten wir also eine True Positive Rate von 4/5 also 0,8 und eine False Positive Rate von 3/5 also 0,6.

True Positive Rate und False Positive Rate

Die True Positive Rate (TPR) ergibt sich damit mit dieser Gleichung:

True Positve Rate

Die True Positive Rate ist geich die true positves geteilt durch die true positvs plus die false negatives. Die True positives sind die richtig als krank klassifizierten Personen und die false negatives sind die falsch als gesund klassifizierten Personen.

Die False Positive Rate (FPR) ergibt sich mit dieser Gleichung:

False Positve Rate

Die False positive Rate ist gleich die False Positives geteilt durch die False Positives plus die true Negatives. Die False Positives sind die falsch als krank klassifizierten gesunden Personen und die true negatives sind die richtig als Gesund klassifizierten Personen.

ROC-Kurve zeichnen

Wir können uns nun für jeden Schwellenwert ausrechnen, wie groß die True Positive Rate und die False Positive Rate ist. Und genau diese beiden Werte werden dann in der ROC-Kurve aufgetragen. Auf der y-Achse wird die True Positive Rate aufgetragen und auf der x-Achse die False Positive Rate.

ROC Kurve

Jetzt zeichnen wir uns die komplette ROC-Kurve für unser Beispiel!

Wenn wir den Schwellenwert ganz klein wählen, also ganz nach links schieben, klassifizieren wir alle 5 erkrankten Personen richtig. Unsere True Positive Rate ist damit 5 von 5 also 1.

Schwellenwert ROC Kurve

Genauso klassifizieren wir aber auch alle 5 gesunden Personen falsch als „krank“. Unsere False Positive Rate ist damit 5 von 5 also 1.

Schwellenwert False Positve Rate

Damit haben wir den ersten Punkt:

ROC Kurve erster Punkt

Nun können wir den Schwellenwert weiter schieben. Hier klassifizieren wir immer noch alle 5 erkrankten richtig als krank. Also haben wir weiterhin eine True Positive Rate 5 / 5. Von den 5 gesunden Personen klassifizieren wir jetzt jedoch nur noch 4 aus 5 falsch als „krank“. Also haben wir 4 von 5 bzw. 0,8.

True Positive Rate und False Positive Rate

Beim nächsten Schwellenwert haben wir immer noch einen True Positive Rate von 1. Alle 5 erkrankten sind richtig klassifiziert und eine False Positive Rate von 3/5, also 0,6.

Schwellwert 3

Beim nächsten Schwellwert wird erstmals eine erkrankte Person falsch als „gesund“ klassifiziert. Wir erhalten also eine True Positive Rate von 4/5, also 0,8. Und eine False Positive Rate von 3/5 also 0,6.

Schwellwert 4

Das können wir nun für alle weiteren Schwellenwerte machen.Damit haben wir nun unsere fertige ROC-Kurve An diesem Punkt z.B. wurden 80% der erkrankten Personen richtig als „krank“ klassifiziert und 20% der gesunden falsch „krank“ zugeordnet.

fertige ROC-Kurve

AUC-Wert

Anhand der ROC-Kurve können wir nun auch verschiedene Klassifizierungsverfahren vergleichen. Ein Klassifizierungsmodell ist umso besser, je weiter oben die Kurve liegt. Daher, umso größer die Fläche unter der Kurve ist, desto besser ist der Klassifizierer. Und genau diese Fläche wird mit dem AUC-Wert, der Area under the Curve wiedergegeben.

AUC-Wert

Der AUC-Wert schwankt zwischen 0 und 1. Je größer der Wert ist, desto besser ist der Klassifizierer.

ROC-Kurve und die logistische Regression

Wie sieht es aber mit der ROC-Kurve und der logistischen Regression aus?

Wir könnten z.B. einen neues Klassifizierungsmodell mit Hilfe einer logistischen Regression erstellen. Hierbei könnten wir, zusätzlich zu dem Blutwert, noch das Alter und das Geschlecht der Person verwenden

Bei einer logistischen Regression ist der geschätzte Wert dann, wie wahrscheinlich es ist, dass eine bestimmte Person erkrankt ist.

Logistische Regression Klassifizierungsschwelle

Sehr oft wird dann einfach 50% als Schwelle hergenommen um zu klassifizieren, ob eine Person erkrankt ist oder nicht.

Das muss aber natürlich nicht sein! Es kann auch jede beliebige Schwelle verwendet werden.

Logistische Regression Schwellwert

Daher können wir uns auch bei der logistischen Regression für die verschiedenen Schwellwerte eine ROC-Kurve erstellen.

ROC-Kurve mit DATAtab erstellen

Datensatz laden

Natürlich können wir uns mit DATAtab ganz einfach online eine ROC-Kurve ausgeben lassen. Hierfür kopieren wir einfach unsere Daten in diese Tabelle und klicken auf ROC-Rechner. Alternativ wird dir auch in dem Regression Rechner bei der logistischen Regression eine ROC-Kurve erstellt.

ROC-Kurve online erstellen

Nun wählen wir einfach die beiden Variablen Erkrankt und Blutwert aus und geben noch an was wir als positives Ereignis betrachten, in unserem Fall die Antwort ja. Nun bekommen wir die ROC-Kurve ausgegeben. In der Tabelle unter der ROC-Kurve finden wir für jeden Punkt aus der ROC-Kurve den jeweiligen Schwellwert.


Statistik leichtgemacht

  • Viele anschauliche Beispiele
  • Ideal für Prüfungen und Abschlussarbeiten
  • Statistik leichtgemacht auf 321 Seiten
  • 4. überarbeitete Auflage (April 2024)
  • Nur 7,99 €
Leseprobe
Datatab

"Super einfach geschrieben"

"Einfacher geht es nicht"

"Soviele hilfreiche Beispiele"

Fragebogen leichtgemacht

Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,

  • Viele anschauliche Beispiele
  • Ideal für die Abschlussarbeit
  • Fragebogen leichtgemacht auf 61 Seiten
  • 3. überarbeitete Auflage (April 2024)
  • Nur 3,99 €
Leseprobe
Datatab

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.

Datatab
Leseprobe

Literatur

Statistik: Der Weg zur Datenanalyse.
Fahrmeir, L. Heumann, C. Künstler, R. Pigeot, I. & Tutz, G.
Zum Buch auf Amazon
Statistik für Human- und Sozialwissenschaftler: Limitierte Sonderausgabe.
Bortz, J. & Schuster, C.
Zum Buch auf Amazon
Fit fürs Studium – Statistik: Alle Grundlagen verständlich erklärt. Geeignet für Studiengänge mit statistischen Methoden: VWL, BWL, Informatik etc.
Grabinger B.
Zum Buch auf Amazon
Multivariate Analysemethoden: Eine anwendungsorientierte Einführung.
Backhaus, K. Erichson, B. Plinke, P. & Weiber, R.
Zum Buch auf Amazon
evaluiert: erweitertes Planungsbuch für Evaluationen im Bildungsbereich
Balzer, L. & Beywl, W.
Zum Buch auf Amazon
Basiswissen Medizinische Statistik.
Weiß, C.
Zum Buch auf Amazon
Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften.
Doring, N. & Bortz, J.
Zum Buch auf Amazon

DATAtab zitieren: DATAtab Team (2024). DATAtab: Online Statistics Calculator. DATAtab e.U. Graz, Austria. URL https://datatab.de

Kontakt & Support Beratung FAQ & About Us Statistik Software Impressum & Datenschutz