k-Means Clusteranalyse

Die k-Means Clusteranalyse ist eine der einfachsten und gängigsten Verfahren zur Clusteranalyse. Damit stellt das k-Means-Verfahren eines der am weitesten verbreiteten Verfahren dar. Es handelt sich dabei um ein partitionierendes Verfahren, welches besonders für große Datenmengen geeignet ist.

Das k-Means-Verfahren zielt darauf ab, die Datenpunkte so auf die k Cluster zu verteilen, dass die Summe der Entfernungen von jedem Punkt zum jeweiligen Cluster Centroid minimiert wird.

k-Means Verfahren

Vereinfacht ausgedrückt gruppiert die k-Means Clusteranalyse ähnliche Datenpunkte und ermöglicht so, zugrunde liegende Muster zu erkennen. Das k-Means Verfahren bzw. der k-means Algorithmus funktionieren nun folgendermaßen:

1) Anzahl der Cluster definieren

Um die Gruppen bzw. Cluster zu finden, muss zunächst die Anzahl der Cluster definiert werden. Die Anzahl der Cluster ist das "k" in k-means. In diesem Beispiel wurde k gleich 3 gewählt.

2) Cluster-Mittelpunkte zufällig festlegen

Im zweiten Schritt werden die initialen Cluster Centroids festgelegt. Dieses geschieht in der Regel zufällig. Wir haben 3 Cluster ausgewählt, daher werden drei Centroids zufällig positioniert. Jedes der Centroids repräsentiert nun ein Cluster.

3) Punkte den Clustern zuordnen

Nun wird die Distanz vom ersten Punkt zu jedem der Cluster Centroids gemessen. Anschließend wird der Punkt dann dem jeweiligen Cluster zugeordnet, welcher am nächsten ist. Dies wird nun für alle weiteren Punkte wiederholt. Anschließend sind dann alle Punkte initial einem Cluster zugeordnet.

4) Mittelwert von jedem Cluster berechnen

Im vierten Schritt wird von jedem Cluster der Mittelwert berechnet. Diese Mittelwerte sind die neuen Centroids der Cluster. Die Cluster-Centroids werden also in die Cluster Mittelpunkte verlegt.

5) Punkte den neuen Clustern zuordnen

Da nun die Centroids an einem anderen Punkt liegen können, wird gleich wie in Punkt 3) wieder jedem Punkt der Cluster zugeordnet, welcher ihm am nächsten ist.

Schritt 4) und 5) wiederholen

Nun werden Schritt 4) und 5) so lange wiederholt, bis sich die Cluster Aufteilung nicht mehr ändert. Wenn sich die Cluster in einer Iteration nicht mehr verändern, ist das Verfahren zu Ende!

Der k-Means-Algorithmus setzt sich dabei aus folgenden, wiederholt durchzuführenden Schritten zusammen:

In diesem Verfahren liegt also eine Repräsentation der k-Cluster durch ihre Schwerpunkte vor, wodurch das Verfahren auch seinen Namen erhalten hat: k-Means-Methode. Dieses nicht-hierarchische Verfahren ermöglicht es, im Unterschied zu hierarchischen Verfahren, dass sich die Zuordnungen der Objekte zu den Clustern im Laufe des Prozesses ändern können. Die Clusterzuordnungen sind also nicht endgültig.

Ein Nachteil des Verfahrens ist darin begründet, dass die Clusterlösung von der Reihenfolge der Objekte in der Startpartition (erste Clusterlösung) abhängt. Es ist daher ratsam, mit unterschiedlichen Startpartitionen zu arbeiten, bei denen sich die Reihenfolgen der Cluster und der Objekte in den Clustern unterscheiden. Jene Lösung, die durch unterschiedliche Startpartitionen am öftesten bestätigt wird, sollte schließlich gewählt werden.

DATAtab berechnet daher 10-mal die Clusteranalyse mit jeweils zufällig bestimmten Startpunkten und wählt aus diesen 10 Clusteranalysen die beste aus. Diese wird dann den BenutzerInnen angezeigt. Diese beste Lösung ist dadurch definiert, dass sie die kleinste Summe der Abstände zwischen den Punkten und dem jeweiligen Cluster aufweist.

Optimale Cluster Anzahl

Die Zahl der Cluster muss beim k-Means Verfahren vor Beginn festgelegt werden und wird daher nicht durch das Cluster Verfahren bestimmt. Aber was ist nun die optimale Anzahl an Clustern beim k-Means Verfahren? Hierfür gibt es mit der Ellenbogen-Methode einen gängigen Weg, um die geeignete Anzahl der Cluster zu bestimmen.

Die Ellenbogen-Methode (Elbow Method)

Mit jedem neuen Cluster wird die Gesamtvariation in jedem Cluster kleiner und kleiner. Im Extremfall, wenn es gleich viele Cluster wie Punkte gibt, ist das Ergebnis null. In den meisten Fällen wird die Verkleinerung der Gesamtvariation ab einem bestimmten Punkt kleiner. Dieser Punkt wird dann als optimale Clusteranzahl verwendet.

Statistik leichtgemacht

Viele anschauliche Beispiele
Ideal für Prüfungen und Abschlussarbeiten
Statistik leichtgemacht auf 321 Seiten
4. überarbeitete Auflage (April 2024)
Nur 7,99 €

Leseprobe

"Super einfach geschrieben"

"Einfacher geht es nicht"

"Soviele hilfreiche Beispiele"

Fragebogen leichtgemacht

Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,

Viele anschauliche Beispiele
Ideal für die Abschlussarbeit
Fragebogen leichtgemacht auf 61 Seiten
3. überarbeitete Auflage (April 2024)
Nur 3,99 €

Leseprobe

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.

Leseprobe

Literatur

Statistik: Der Weg zur Datenanalyse.

Fahrmeir, L. Heumann, C. Künstler, R. Pigeot, I. & Tutz, G.

Zum Buch auf Amazon

Statistik für Human- und Sozialwissenschaftler: Limitierte Sonderausgabe.

Bortz, J. & Schuster, C.

Zum Buch auf Amazon

k-Means Clusteranalyse

k-Means Verfahren

1) Anzahl der Cluster definieren

2) Cluster-Mittelpunkte zufällig festlegen

3) Punkte den Clustern zuordnen

4) Mittelwert von jedem Cluster berechnen

5) Punkte den neuen Clustern zuordnen

Schritt 4) und 5) wiederholen

Optimale Cluster Anzahl

Die Ellenbogen-Methode (Elbow Method)

Statistik leichtgemacht

Fragebogen leichtgemacht

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Literatur

Statistik: Der Weg zur Datenanalyse.

Fahrmeir, L. Heumann, C. Künstler, R. Pigeot, I. & Tutz, G.

Statistik für Human- und Sozialwissenschaftler: Limitierte Sonderausgabe.

Bortz, J. & Schuster, C.

Fit fürs Studium – Statistik: Alle Grundlagen verständlich erklärt. Geeignet für Studiengänge mit statistischen Methoden: VWL, BWL, Informatik etc.

Grabinger B.

Multivariate Analysemethoden: Eine anwendungsorientierte Einführung.

Backhaus, K. Erichson, B. Plinke, P. & Weiber, R.

evaluiert: erweitertes Planungsbuch für Evaluationen im Bildungsbereich

Balzer, L. & Beywl, W.

Basiswissen Medizinische Statistik.

Weiß, C.

Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften.

Doring, N. & Bortz, J.