Fleiss Kappa

Das Fleiss Kappa verwendest du immer dann, wenn du wissen möchtest, ob die Messung von mehr als zwei Personen übereinstimmt. Die Personen, die etwas messen, werden Rater genannt.

Im Fall des Fleiss Kappa ist die Variable, die von den drei oder mehr Raten gemessen werden soll, eine nominale Variable. Daher, wenn du eine nominale Variable hast, verwendest du das Fleiss Kappa.

Zur Info, hättest du eine ordinale Variable und mehr als zwei Rater würdest du das Kendalls W verwenden und bei einer metrischen Variablen die Intra-Klassen-Korrelation. Hättest du nur zwei Rater und eine nominale Variable würdest du das Cohens Kappa verwenden.

Damit aber erst mal genug zur Theorie, schauen wir uns das erst mal an einem Beispiel an.

Fleiss Kappa Beispiel

Sagen wir, du hast ein Messinstrument, zum Beispiel einen Fragebogen entwickelt, mit dem Ärztinnen und Ärzte bestimmen können, ob eine Person depressiv ist oder nicht.

Nun gibst du das Messinstrument Ärztinnen und Ärzten und lässt sie 50 Personen damit bewerten. Die große Frage ist nun: Wie gut stimmen die Messungen der Ärzte und Ärztinnen überein?

Wenn die Beurteilungen der Rater sehr gut übereinstimmen, spricht man von einer hohen Inter-Rater-Reliabilität

Und genau diese Inter-Rater-Reliabilität misst das Fleiss Kappa. Das Fleiss Kappa ist ein Maß für Inter-Rater-Reliabilität.

Definition

Das Fleiss Kappa ist ein Maß dafür, wie zuverlässig drei oder mehr Rater das gleiche messen.

Fleiss Kappa Messwiederholung

Bisher haben wir den Fall betrachtet, dass drei oder mehr Personen das gleiche messen. Das Fleiss Kappa kann aber auch verwendet werden, wenn derselbe Rater zu mehr als zwei unterschiedlichen Zeitpunkten die Messung durchführt.

In dem Fall gibt das Fleiss Kappa an, wie gut die Messungen der gleichen Person übereinstimmen.

In diesem Fall hat die untersuchte Variable zwei Ausprägungen, depressiv und nicht depressiv, natürlich kann die Variable, die untersucht werden soll, auch aus mehr als zwei Ausprägungen bestehen.

Maß für die Übereinstimmung:

Das Fleiss Kappa ist ein Maß für die Übereinstimmung von mehr als zwei abhängiger kategorialer Stichproben.

Fleiss Kappa Reliabilität und Validität

Wichtig ist zu beachten, dass du mit dem Fleiss Kappa nur eine Aussage darüber treffen kannst, wie zuverlässig die Rater das gleiche messen. Du kannst aber keine Aussage darüber treffen, ob es das Richtige ist, was die Rater messen!

Also wenn alle Rater so gut wie immer das gleiche messen, hättest du eine sehr hohes Fleiss Kappa. Ob dieser gemessene Wert mit der Realität zusammenpasst, also das richtige gemessen wird, sagt dir das Fleiss Kappa nicht! Im ersten Fall spricht man von der Reliabilität, im zweiten Fall spricht man von der Validität.

Fleiss Kappa berechnen

Das Fleiss Kappa können wir mit dieser Formel berechnen:

Hierfür brauchen wir p_o, welches die beobachtete Übereinstimmung der Rater ist und p_e welches die erwartete Übereinstimmung ist. Die erwartete Übereinstimmung ergibt sich, wenn die Rater komplett zufällig beurteilen, also bei jedem Patienten einfach eine Münze werfen, ob diese depressiv ist oder nicht.

Wie berechnen wir nun p_o und p_e? Starten wir mit p_e Sagen wir, wir haben 7 Patienten und drei Rater. Jeder Patient wurde von jedem Rater beurteilt.

Im ersten Schritt zählen wir einfach, wie oft ein Patient mit depressiv und wie oft mit nicht depressiv beurteilt wurde.

Bei dem ersten Patienten haben 0 Rater gesagt, dass diese nicht depressiv ist und 3 Rater haben gesagt, dass diese Person depressiv ist. Bei der zweiten Person hat ein Rater gesagt, dass die Person nicht depressiv ist und zwei, dass sie depressiv ist.

Das machen wir nun für alle weiteren Patienten. Nun können wir uns jeweils die Summe berechnen. Insgesamt haben wir 8 Ratings mit nicht depressiv und 13 Ratings mit depressiv. Insgesamt gab es 21 Ratings.

Damit können wir uns ausrechnen, wie wahrscheinlich ist es, dass eine Person als nicht depressiv bewertet wird bzw. als depressiv. Hierfür teilen wir jeweils die Anzahl der Bewertungen von depressiv und nicht depressiv durch die gesamte Anzahl von 21.

Also einmal 8 geteilt durch 21, was bedeutet, dass 38% der Patienten von den Ratern als nicht depressiv eingestuft wurden, und einmal 13 geteilt durch 21, was bedeutet, dass 62% der Patienten als depressiv eingestuft wurden.

Für die Berechnung von p_e quadrieren wir nun beide Werte und summieren diese auf. Also 0,38² plus 0,62², das ist gleich 0,53

Damit haben wir nun p_eund jetzt brauchen wir noch p_o.

p_o können wir mit dieser Formel berechnen, keine Angst, die sieht komplizierter aus, als sie ist.

Starten wir mit dem ersten Teil. Groß N ist die Anzahl der Patienten also 7 und klein n ist die Anzahl der Rater also 3. Damit erhalten wir für den ersten Teil 0,024.

Im zweiten Teil der Formel quadrieren wir einfach jeden Wert in dieser Tabelle und summieren das auf. Also 0² plus 3² bis schließlich 1² plus 2². Das ergibt 47.

Und der dritte Teil ergibt sich mit 7 mal 3 was gleich 21 ist. Wenn wir alles einsetzen, erhalten wir 0,024 mal 47 – 21 was gleich 0,624 ist.

Damit haben wir nun p_o und p_e. Eingesetzt in die Formel für das Fleiss Kappa erhalten wir ein Kappa Koeffizienten von 0,19.

Fleiss Kappa interpretieren

Nun muss der Fleiss Kappa Koeffizienten natürlich noch interpretiert werden. Hierfür können wir die Tabelle von Landis und Kock (1977) verwenden.

Für einen Fleiss Kappa Wert von 0,19 erhalten wir gerade noch eine geringe Übereinstimmung.

Fleiss Kappa mit DATAtab berechnen

Mit DATAtab kannst du ganz einfach online das Fleiss Kappa berechnen. Hierfür gehe einfach auf datatab.de und kopiere deine eigenen Daten in die Tabelle bei dem Fleiss Kappa Rechner. Nun klicke auf den Tab Reliabilität. Unter Reliabilität kannst du verschiedene Reliabilitätsstatistiken berechnen, je nachdem wie viele Variablen du anklickst und welches Skalenniveau die haben, bekommst du einen passenden Vorschlag.

Das Fleiss Kappa wird bei nominalen Variablen berechnet. Wurden deine Daten als metrisch erkannt, ändere bitte das Skalenniveau unter Datenansicht auf nominal.

Wenn du nun Rater 1 und Rater 2 anklickst, wird das Cohens Kappa berechnet, wenn du nun noch Rater 3 anklickst, wird das Fleiss Kappa berechnet.

Unten kannst du dann das berechnete Fleiss Kappa ablesen.

Falls du nicht weißt, wie du das Ergebnis interpretieren sollst, klicke einfach auf Interpretationen in Worten.

Eine Inter-Rater-Reliabilitätsanalyse wurde zwischen den abhängigen Stichproben Rater 1, Rater 2 und Rater 3 durchgeführt. Hierfür wurde das Fleiss Kappa berechnet, welches ein Maß für die Übereinstimmung von mehr als zwei verbundener kategorialer Stichproben ist.

Das Fleiss Kappa zeigte, dass es zwischen den Stichproben Rater 1, Rater 2 und Rater 3 mit κ= 0,16 eine geringe Übereinstimmung gab.

Statistik leichtgemacht

Viele anschauliche Beispiele
Ideal für Prüfungen und Abschlussarbeiten
Statistik leichtgemacht auf 321 Seiten
4. überarbeitete Auflage (April 2024)
Nur 7,99 €

Leseprobe

"Super einfach geschrieben"

"Einfacher geht es nicht"

"Soviele hilfreiche Beispiele"

Fragebogen leichtgemacht

Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,

Viele anschauliche Beispiele
Ideal für die Abschlussarbeit
Fragebogen leichtgemacht auf 61 Seiten
3. überarbeitete Auflage (April 2024)
Nur 3,99 €

Leseprobe

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.

Leseprobe

Literatur

Statistik: Der Weg zur Datenanalyse.

Fahrmeir, L. Heumann, C. Künstler, R. Pigeot, I. & Tutz, G.

Zum Buch auf Amazon

Statistik für Human- und Sozialwissenschaftler: Limitierte Sonderausgabe.

Bortz, J. & Schuster, C.

Zum Buch auf Amazon

Fleiss Kappa

Fleiss Kappa Beispiel

Definition

Fleiss Kappa Messwiederholung

Maß für die Übereinstimmung:

Fleiss Kappa Reliabilität und Validität

Fleiss Kappa berechnen

Fleiss Kappa interpretieren

Fleiss Kappa mit DATAtab berechnen

Statistik leichtgemacht

Fragebogen leichtgemacht

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Literatur

Statistik: Der Weg zur Datenanalyse.

Fahrmeir, L. Heumann, C. Künstler, R. Pigeot, I. & Tutz, G.

Statistik für Human- und Sozialwissenschaftler: Limitierte Sonderausgabe.

Bortz, J. & Schuster, C.

Fit fürs Studium – Statistik: Alle Grundlagen verständlich erklärt. Geeignet für Studiengänge mit statistischen Methoden: VWL, BWL, Informatik etc.

Grabinger B.

Multivariate Analysemethoden: Eine anwendungsorientierte Einführung.

Backhaus, K. Erichson, B. Plinke, P. & Weiber, R.

evaluiert: erweitertes Planungsbuch für Evaluationen im Bildungsbereich

Balzer, L. & Beywl, W.

Basiswissen Medizinische Statistik.

Weiß, C.

Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften.

Doring, N. & Bortz, J.