Cohens Kappa

Das Cohens Kappa ist ein Maß für die Übereinstimmung zweier abhängiger kategorialer Stichproben und du verwendest es immer dann, wenn du wissen möchtest, ob die Messung von zwei Personen übereinstimmt. Die zwei Personen, die etwas messen, werden Rater genannt.

Im Fall des Cohens Kappa ist die Variable, die von den beiden Raten gemessen werden soll, eine nominale Variable.

Daher, wenn du eine nominale Variable hast und du wissen möchtest, wie hoch die Übereinstimmung von 2 Ratern ist, verwendest du das Cohens Kappa. Hättest du eine ordinale Variable und zwei Rater, würdest du das Kendalls Tau oder das gewichtete Cohens Kappa verwenden und bei einer metrischen Variablen die Pearson Korrelation.

Wenn du mehr als zwei nominale abhängige Stichproben hast, wird das Fleiss Kappa verwendet.

Cohens Kappa Beispiel

Sagen wir, du hast ein Messinstrument, zum Beispiel einen Fragebogen entwickelt, mit dem Ärztinnen und Ärzte bestimmen können, ob eine Person depressiv ist oder nicht. Nun gibst du dieses Messinstrument einer Ärztin und lässt sie 50 Personen damit bewerten.

Mit deinem Verfahren kommt zum Beispiel bei der ersten Person raus, dass sie depressiv ist, bei der zweiten auch und bei der dritten Person zeigt sich, dass sie nicht depressiv ist. Die große Frage ist nun: Kommt ein zweiter Arzt oder eine zweite Ärztin zu dem gleichen Ergebnis?

Also, bei einem zweiten Arzt könnte nun das Ergebnis wie folgt aussehen: Bei der ersten Person kommen beide Ärzte zu dem gleichen Ergebnis, jedoch bei der zweiten Person unterscheidet sich das Ergebnis. Dich interessiert also, wie groß die Übereinstimmung der Ärztin und des Arztes ist und hierbei hilft dir das Cohens Kappa

Inter-Rater-Reliabilität

Wenn die Beurteilungen der Ärztin und des Arztes sehr gut übereinstimmen, spricht man von einer hohen Inter-Rater-Reliabilität. Und genau diese Inter-Rater-Reliabilität misst das Cohens Kappa.

Definition:

Cohens Kappa (κ) ist ein statistisches Maß zur Quantifizierung des Grades der Übereinstimmung zwischen zwei Bewertern, die jeweils Gegenstände in Kategorien einordnen. Es ist besonders nützlich in Situationen, in denen Entscheidungen subjektiv sind und die Kategorien nominal sind (d. h. sie haben keine natürliche Reihenfolge).

Das Cohens Kappa ist also ein Maß dafür, wie zuverlässig zwei Rater dasselbe messen.

Anwendungsfälle von Cohens Kappa

Bisher haben wir den Fall betrachtet, dass zwei Personen das Gleiche messen. Das Cohens Kappa kann aber auch verwendet werden, wenn derselbe Rater zu zwei unterschiedlichen Zeitpunkten die Messung durchführt.

In dem Fall gibt das Cohens Kappa an, wie gut die beiden Messung der gleichen Person übereinstimmen.

Maß für die Übereinstimmung

Das Cohens Kappa ist ein Maß für die Übereinstimmung zweier abhängiger kategorialer Stichproben.

Cohens Kappa Reliabilität und Validität

Wichtig ist zu beachten, dass du mit dem Cohens Kappa nur eine Aussage darüber treffen kannst, wie zuverlässig beide Rater das gleiche messen. Du kannst aber keine Aussage darüber treffen, ob es das Richtige ist, was die beiden Rater messen!

Im Erstenfall spricht man von Reliabilität (ob beide das gleiche messen) und im Zweitenfall spricht man von Validität (ob beide das Richtige Messen). Mit dem Cohens Kappa kann nur die Reliabilität gemessen werden.

Cohens Kappa berechnen

Nun stellt sich die Frage, wie wird das Cohens Kappa berechnet? Das ist nicht schwer! Hierfür erstellen wir uns eine Tabelle mit den Häufigkeiten der jeweiligen Antworten.

Hierfür nehmen wir unsere beiden Rater, die jeweils bei einer Person bewertet haben, ob diese depressiv ist oder nicht. Nun zählen wir, wie oft beide das Gleiche gemessen haben und wie oft nicht.

Also erstellen wir uns eine Tabelle mit Rater 1 mit jeweils „nicht depressiv“ und „depressiv“ und Rater 2 mit jeweils „nicht depressiv“ und „depressiv“. Nun führen wir einfach eine Strichliste und zählen durch, wie oft die jeweilige Kombination vorkommt.

Nehmen wir an, unser Endergebnis sieht wie folgt aus: 17 Personen haben beide Rater als „nicht depressiv“ bewertet. Bei 19 Personen wählten beide die Bewertung „depressiv“.

Daher, wenn beide Rater das Gleiche gemessen haben, liegt diese Person auf der Diagonalen, wurde etwas Unterschiedliches gemessen, liegt die Person hier am Rand. Nun möchten wir wissen, wie oft beide Rater übereinstimmen und wie oft nicht.

Rater 1 und Rater 2 stimmen darin überein, dass 17 Patienten nicht depressiv sind und 19 depressiv. Also stimmen beide Rater in 36 Fällen überein. Insgesamt wurden 50 Personen beurteilt.

Mit diesen Zahlen können wir nun die Wahrscheinlichkeit ausrechne, dass beide Rater bei einer Person das Gleiche messen. Dies berechnen wir, indem wir 36 durch 50 teilen. Wir kommen zu folgendem Ergebnis: In 72% der Fälle beurteilen beide Rater gleich in 28 % der Fälle unterschiedlich.

Damit haben wir schon mal den ersten Teil, den wir für die Berechnung von Cohens Kappa brauchen. Cohens Kappa ergibt sich durch diese Formel:

Also p_o haben wir gerade berechnet, was ist nun p_e?

Wenn beide Ärzte rein zufällig antworten würden, sozusagen einfach eine Münze werfen, ob eine Person depressiv ist oder nicht, würden sie sicherlich in einigen Fällen auch zum gleichen Ergebnis kommen, rein durch Zufall.

Und genau das gibt p_e an: Die hypothetische Wahrscheinlichkeit einer zufälligen Übereinstimmung. Aber wie berechnet man pe?

Um p_e zu berechnen, brauchen wir erst mal die Summen jeweils in den Reihen und den Spalten. Damit können wir nun das p_e ausrechnen.

Im ersten Schritt berechnen wir die Wahrscheinlichkeit, dass beide Rater zufällig zur Bewertung „nicht depressiv“ kommen würden.

Rater 1 hat 25 von 50 Personen als „nicht depressiv“ bewertet also 50%.
Rater 2 hat 23 von 50 Personen als „nicht depressiv“ bewertet also 46%.

Die Gesamtwahrscheinlichkeit, dass beide Bewerter zufällig „nicht depressiv“ sagen, beträgt: 0.5 * 0.46 = 0.23

Im zweiten Schritt berechnen wir die Wahrscheinlichkeit, dass die Rater zufällig beide „depressiv“ sagen würden.

Rater 1 sagt „depressiv“ bei 25 von 50 Personen also 50%.
Rater 2 sagt „depressiv“ bei 27 von 50 Personen also 54%.

Die Gesamtwahrscheinlichkeit, dass beide Rater zufällig depressiv sagen, beträgt: 0.5 * 0.54 = 0.27. Damit können wir nun p_e ausrechnen

Wenn beide Werte nun addiert werden, erhalten wir die Wahrscheinlichkeit, dass die beiden Rater zufällig übereinstimmen. p_e ergibt sich also mit 0,23 + 0,27 was gleich 0,50 ist. Daher, wenn die Ärztinnen bzw. Ärzte keine Anleitung hätten und einfach würfeln würden, ist die Wahrscheinlichkeit, dass sich eine solche Übereinstimmung ergibt, 50%.

Nun können wir Cohens Kappa berechnen. Wir setzen einfach p_o und p_e ein und wir erhalten in unserem Beispiel ein Kappa von 0,4.

Bei p_o steht da o übrigens für „observed“ also beobachtet. Und bei p_e steht das e für „expected“ also erwartet. Daher p_o ist das, was wir tatsächlich beobachtet haben und p_e wäre das, was wir erwarten würden, wenn es rein zufällig wäre.

Cohens Kappa interpretieren

Nun möchten wir den berechneten Cohens Kappa Koeffizient natürlich noch interpretieren. Hierfür kann die Tabelle von Landis & Koch (1977) als anhalspunkt verwendet werden.

Kappa
>0.8	fast perfekt
>0.6	substanziell
>0.4	moderat
>0.2	mäßig
0-0,2	gering
<0	mangelhaft

Daher der eben berechnete Cohens Kappa Koeffizient von 0.44 steht für eine moderate Zuverlässigkeit bzw. Übereinstimmung.

Cohens Kappa Standardfehler (SE)

Der Standardfehler (SE) einer Statistik, wie Cohens Kappa, ist ein Maß für die Präzision des geschätzten Wertes. Er zeigt das Ausmaß an, in dem der berechnete Wert variieren würde, wenn die Studie mehrmals mit verschiedenen Stichproben aus derselben Population wiederholt würde. Daher ist es ein Maß für die Variabilität oder Unsicherheit um die Schätzung der Kappa-Statistik.

Berechnung des Standardfehlers von Cohens Kappa:

Die Berechnung des SE für Cohens Kappa beinhaltet etwas komplexe Formeln, die die Gesamtanteile jeder bewerteten Kategorie und die Verteilung der Bewertungen zwischen den Bewertern berücksichtigen. Die allgemeine Formel für den SE von Cohens Kappa ist:

Wo n die Gesamtzahl der bewerteten Elemente ist.

Interpretation des Standardfehlers

Kleiner Standardfehler: Ein kleiner SE deutet darauf hin, dass die Stichprobenschätzung wahrscheinlich nahe am wahren Populationswert liegt. Je kleiner der SE, desto präziser wird die Schätzung betrachtet.

Großer Standardfehler: Ein großer SE deutet darauf hin, dass es mehr Variabilität in den Schätzungen von Stichprobe zu Stichprobe gibt und daher weniger Präzision. Es deutet darauf hin, dass, wenn die Studie wiederholt würde, die resultierenden Schätzungen stark variieren könnten.

Gewichtetes Cohens Kappa

Cohens Kappa berücksichtigt die Übereinstimmung zwischen zwei Ratern, hierbei ist aber nur relevant, ob beide Rater das gleiche Messen oder nicht. Liegt eine ordinale variable vor, also eine Variable mit einer Rangfolge wie z.B. die Schulnoten, ist es natürlich wünschenswert, wenn die Abstufungen auch mit betrachtet werden. Ein Unterschied zwischen "sehr gut" und "befriedigend" ist größer als zwischen "sehr gut" und "gut".

Um dieses zu berücksichtigen, kann das gewichtete Kappa berechnet werden. Hierbei geht die Abweichung mit in die Berechnung mit ein. Die Unterschiede können dabei linear oder quadratisch berücksichtig werden.

Cohens Kappa mit DATAtab berechnen

Und jetzt zeige ich dir, wie du das Cohens Kappa ganz einfach für deine Daten online mit DATAtab berechnen kannst.

Hierfür gehe einfach auf den Cohen's Kappa Rechner und kopiere deine eigenen Daten in die Tabelle. Nun klicke auf den Tab Reliabilität.

Nun musst du einfach nur die Variablen anklicken, die du auswerten möchtest und dir wird automatisch das Cohens Kappa ausgegeben. Zuerst siehst du die Kreuztabelle und dann kannst du den berechneten Cohens Kappa Koeffizienten ablesen. Falls du nicht weißt, wie du das Ergebnis interpretieren sollst, klicke einfach auf Interpretationen in Worten.

Eine Inter-Rater-Reliabilitätsanalyse wurde zwischen den abhängigen Stichproben Rater1 und Rater2 durchgeführt. Hierfür wurde das Cohens Kappa berechnet, welches ein Maß für die Übereinstimmung zweier verbundener kategorialer Stichproben ist. Das Cohens Kappa zeigte, dass es zwischen den Stichproben Rater1 und Rater2 mit κ= 0,23 eine mäßige Übereinstimmung gab.

Statistik leichtgemacht

Viele anschauliche Beispiele
Ideal für Prüfungen und Abschlussarbeiten
Statistik leichtgemacht auf 321 Seiten
4. überarbeitete Auflage (April 2024)
Nur 7,99 €

Leseprobe

"Super einfach geschrieben"

"Einfacher geht es nicht"

"Soviele hilfreiche Beispiele"

Fragebogen leichtgemacht

Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,

Viele anschauliche Beispiele
Ideal für die Abschlussarbeit
Fragebogen leichtgemacht auf 61 Seiten
3. überarbeitete Auflage (April 2024)
Nur 3,99 €

Leseprobe

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.

Leseprobe

Literatur

Statistik: Der Weg zur Datenanalyse.

Fahrmeir, L. Heumann, C. Künstler, R. Pigeot, I. & Tutz, G.

Zum Buch auf Amazon

Statistik für Human- und Sozialwissenschaftler: Limitierte Sonderausgabe.

Bortz, J. & Schuster, C.

Zum Buch auf Amazon

Cohens Kappa

Cohens Kappa Beispiel

Inter-Rater-Reliabilität

Definition:

Anwendungsfälle von Cohens Kappa

Maß für die Übereinstimmung

Cohens Kappa Reliabilität und Validität

Cohens Kappa berechnen

Cohens Kappa interpretieren

Cohens Kappa Standardfehler (SE)

Berechnung des Standardfehlers von Cohens Kappa:

Interpretation des Standardfehlers

Gewichtetes Cohens Kappa

Cohens Kappa mit DATAtab berechnen

Statistik leichtgemacht

Fragebogen leichtgemacht

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Literatur

Statistik: Der Weg zur Datenanalyse.

Fahrmeir, L. Heumann, C. Künstler, R. Pigeot, I. & Tutz, G.

Statistik für Human- und Sozialwissenschaftler: Limitierte Sonderausgabe.

Bortz, J. & Schuster, C.

Fit fürs Studium – Statistik: Alle Grundlagen verständlich erklärt. Geeignet für Studiengänge mit statistischen Methoden: VWL, BWL, Informatik etc.

Grabinger B.

Multivariate Analysemethoden: Eine anwendungsorientierte Einführung.

Backhaus, K. Erichson, B. Plinke, P. & Weiber, R.

evaluiert: erweitertes Planungsbuch für Evaluationen im Bildungsbereich

Balzer, L. & Beywl, W.

Basiswissen Medizinische Statistik.

Weiß, C.

Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften.

Doring, N. & Bortz, J.