Fleiss Kappa
Das Fleiss Kappa verwendest du immer dann, wenn du wissen möchtest, ob die Messung von mehr als zwei Personen übereinstimmt. Die Personen, die etwas messen, werden Rater genannt.
Im Fall des Fleiss Kappa ist die Variable, die von den drei oder mehr Raten gemessen werden soll, eine nominale Variable. Daher, wenn du eine nominale Variable hast, verwendest du das Fleiss Kappa.
Zur Info, hättest du eine ordinale Variable und mehr als zwei Rater würdest du das Kendalls W verwenden und bei einer metrischen Variablen die Intra-Klassen-Korrelation. Hättest du nur zwei Rater und eine nominale Variable würdest du das Cohens Kappa verwenden.
Damit aber erst mal genug zur Theorie, schauen wir uns das erst mal an einem Beispiel an.
Fleiss Kappa Beispiel
Sagen wir, du hast ein Messinstrument, zum Beispiel einen Fragebogen entwickelt, mit dem Ärztinnen und Ärzte bestimmen können, ob eine Person depressiv ist oder nicht.
Nun gibst du das Messinstrument Ärztinnen und Ärzten und lässt sie 50 Personen damit bewerten. Die große Frage ist nun: Wie gut stimmen die Messungen der Ärzte und Ärztinnen überein?
Wenn die Beurteilungen der Rater sehr gut übereinstimmen, spricht man von einer hohen Inter-Rater-Reliabilität
Und genau diese Inter-Rater-Reliabilität misst das Fleiss Kappa. Das Fleiss Kappa ist ein Maß für Inter-Rater-Reliabilität.
Definition
Das Fleiss Kappa ist ein Maß dafür, wie zuverlässig drei oder mehr Rater das gleiche messen.
Fleiss Kappa Messwiederholung
Bisher haben wir den Fall betrachtet, dass drei oder mehr Personen das gleiche messen. Das Fleiss Kappa kann aber auch verwendet werden, wenn derselbe Rater zu mehr als zwei unterschiedlichen Zeitpunkten die Messung durchführt.
In dem Fall gibt das Fleiss Kappa an, wie gut die Messungen der gleichen Person übereinstimmen.
In diesem Fall hat die untersuchte Variable zwei Ausprägungen, depressiv und nicht depressiv, natürlich kann die Variable, die untersucht werden soll, auch aus mehr als zwei Ausprägungen bestehen.
Maß für die Übereinstimmung:
Das Fleiss Kappa ist ein Maß für die Übereinstimmung von mehr als zwei abhängiger kategorialer Stichproben.
Fleiss Kappa Reliabilität und Validität
Wichtig ist zu beachten, dass du mit dem Fleiss Kappa nur eine Aussage darüber treffen kannst, wie zuverlässig die Rater das gleiche messen. Du kannst aber keine Aussage darüber treffen, ob es das Richtige ist, was die Rater messen!
Also wenn alle Rater so gut wie immer das gleiche messen, hättest du eine sehr hohes Fleiss Kappa. Ob dieser gemessene Wert mit der Realität zusammenpasst, also das richtige gemessen wird, sagt dir das Fleiss Kappa nicht! Im ersten Fall spricht man von der Reliabilität, im zweiten Fall spricht man von der Validität.
Fleiss Kappa berechnen
Das Fleiss Kappa können wir mit dieser Formel berechnen:
Hierfür brauchen wir po, welches die beobachtete Übereinstimmung der Rater ist und pe welches die erwartete Übereinstimmung ist. Die erwartete Übereinstimmung ergibt sich, wenn die Rater komplett zufällig beurteilen, also bei jedem Patienten einfach eine Münze werfen, ob diese depressiv ist oder nicht.
Wie berechnen wir nun po und pe? Starten wir mit pe Sagen wir, wir haben 7 Patienten und drei Rater. Jeder Patient wurde von jedem Rater beurteilt.
Im ersten Schritt zählen wir einfach, wie oft ein Patient mit depressiv und wie oft mit nicht depressiv beurteilt wurde.
Bei dem ersten Patienten haben 0 Rater gesagt, dass diese nicht depressiv ist und 3 Rater haben gesagt, dass diese Person depressiv ist. Bei der zweiten Person hat ein Rater gesagt, dass die Person nicht depressiv ist und zwei, dass sie depressiv ist.
Das machen wir nun für alle weiteren Patienten. Nun können wir uns jeweils die Summe berechnen. Insgesamt haben wir 8 Ratings mit nicht depressiv und 13 Ratings mit depressiv. Insgesamt gab es 21 Ratings.
Damit können wir uns ausrechnen, wie wahrscheinlich ist es, dass eine Person als nicht depressiv bewertet wird bzw. als depressiv. Hierfür teilen wir jeweils die Anzahl der Bewertungen von depressiv und nicht depressiv durch die gesamte Anzahl von 21.
Also einmal 8 geteilt durch 21, was bedeutet, dass 38% der Patienten von den Ratern als nicht depressiv eingestuft wurden, und einmal 13 geteilt durch 21, was bedeutet, dass 62% der Patienten als depressiv eingestuft wurden.
Für die Berechnung von pe quadrieren wir nun beide Werte und summieren diese auf. Also 0,382 plus 0,622, das ist gleich 0,53
Damit haben wir nun peund jetzt brauchen wir noch po.
po können wir mit dieser Formel berechnen, keine Angst, die sieht komplizierter aus, als sie ist.
Starten wir mit dem ersten Teil. Groß N ist die Anzahl der Patienten also 7 und klein n ist die Anzahl der Rater also 3. Damit erhalten wir für den ersten Teil 0,024.
Im zweiten Teil der Formel quadrieren wir einfach jeden Wert in dieser Tabelle und summieren das auf. Also 02 plus 32 bis schließlich 12 plus 22. Das ergibt 47.
Und der dritte Teil ergibt sich mit 7 mal 3 was gleich 21 ist. Wenn wir alles einsetzen, erhalten wir 0,024 mal 47 – 21 was gleich 0,624 ist.
Damit haben wir nun po und pe. Eingesetzt in die Formel für das Fleiss Kappa erhalten wir ein Kappa Koeffizienten von 0,19.
Fleiss Kappa interpretieren
Nun muss der Fleiss Kappa Koeffizienten natürlich noch interpretiert werden. Hierfür können wir die Tabelle von Landis und Kock (1977) verwenden.
Für einen Fleiss Kappa Wert von 0,19 erhalten wir gerade noch eine geringe Übereinstimmung.
Fleiss Kappa mit DATAtab berechnen
Mit DATAtab kannst du ganz einfach online das Fleiss Kappa berechnen. Hierfür gehe einfach auf datatab.de und kopiere deine eigenen Daten in die Tabelle bei dem Fleiss Kappa Rechner. Nun klicke auf den Tab Reliabilität. Unter Reliabilität kannst du verschiedene Reliabilitätsstatistiken berechnen, je nachdem wie viele Variablen du anklickst und welches Skalenniveau die haben, bekommst du einen passenden Vorschlag.
Das Fleiss Kappa wird bei nominalen Variablen berechnet. Wurden deine Daten als metrisch erkannt, ändere bitte das Skalenniveau unter Datenansicht auf nominal.
Wenn du nun Rater 1 und Rater 2 anklickst, wird das Cohens Kappa berechnet, wenn du nun noch Rater 3 anklickst, wird das Fleiss Kappa berechnet.
Unten kannst du dann das berechnete Fleiss Kappa ablesen.
Falls du nicht weißt, wie du das Ergebnis interpretieren sollst, klicke einfach auf Interpretationen in Worten.
Eine Inter-Rater-Reliabilitätsanalyse wurde zwischen den abhängigen Stichproben Rater 1, Rater 2 und Rater 3 durchgeführt. Hierfür wurde das Fleiss Kappa berechnet, welches ein Maß für die Übereinstimmung von mehr als zwei verbundener kategorialer Stichproben ist.
Das Fleiss Kappa zeigte, dass es zwischen den Stichproben Rater 1, Rater 2 und Rater 3 mit κ= 0,16 eine geringe Übereinstimmung gab.
Statistik leichtgemacht
- Viele anschauliche Beispiele
- Ideal für Prüfungen und Abschlussarbeiten
- Statistik leichtgemacht auf 321 Seiten
- 4. überarbeitete Auflage (April 2024)
- Nur 7,99 €
"Super einfach geschrieben"
"Einfacher geht es nicht"
"Soviele hilfreiche Beispiele"
Fragebogen leichtgemacht
Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,
- Viele anschauliche Beispiele
- Ideal für die Abschlussarbeit
- Fragebogen leichtgemacht auf 61 Seiten
- 3. überarbeitete Auflage (April 2024)
- Nur 3,99 €
Statistik leichtgemacht
Endlich ohne Probleme Statistik verstehen.
Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.