Menu

k-Means Clusteranalyse

Die k-Means Clusteranalyse ist eine der einfachsten und gängigsten Verfahren zur Clusteranalyse. Damit stellt das k-Means-Verfahren eines der am weitesten verbreiteten Verfahren dar. Es handelt sich dabei um ein partitionierendes Verfahren, welches besonders für große Datenmengen geeignet ist.

Das k-Means-Verfahren zielt darauf ab, die Datenpunkte so auf die k Cluster zu verteilen, dass die Summe der Entfernungen von jedem Punkt zum jeweiligen Cluster Centroid minimiert wird.

k-Means Verfahren

Vereinfacht ausgedrückt gruppiert die k-Means Clusteranalyse ähnliche Datenpunkte und ermöglicht so, zugrunde liegende Muster zu erkennen. Das k-Means Verfahren bzw. der k-means Algorithmus funktionieren nun folgendermaßen:

1) Anzahl der Cluster definieren

Um die Gruppen bzw. Cluster zu finden, muss zunächst die Anzahl der Cluster definiert werden. Die Anzahl der Cluster ist das "k" in k-means. In diesem Beispiel wurde k gleich 3 gewählt.

2) Cluster-Mittelpunkte zufällig festlegen

Im zweiten Schritt werden die initialen Cluster Centroids festgelegt. Dieses geschieht in der Regel zufällig. Wir haben 3 Cluster ausgewählt, daher werden drei Centroids zufällig positioniert. Jedes der Centroids repräsentiert nun ein Cluster.

k-Means Clusteranalyse

3) Punkte den Clustern zuordnen

Nun wird die Distanz vom ersten Punkt zu jedem der Cluster Centroids gemessen. Anschließend wird der Punkt dann dem jeweiligen Cluster zugeordnet, welcher am nächsten ist. Dies wird nun für alle weiteren Punkte wiederholt. Anschließend sind dann alle Punkte initial einem Cluster zugeordnet.

4) Mittelwert von jedem Cluster berechnen

Im vierten Schritt wird von jedem Cluster der Mittelwert berechnet. Diese Mittelwerte sind die neuen Centroids der Cluster. Die Cluster-Centroids werden also in die Cluster Mittelpunkte verlegt.

5) Punkte den neuen Clustern zuordnen

Da nun die Centroids an einem anderen Punkt liegen können, wird gleich wie in Punkt 3) wieder jedem Punkt der Cluster zugeordnet, welcher ihm am nächsten ist.

Schritt 4) und 5) wiederholen

Nun werden Schritt 4) und 5) so lange wiederholt, bis sich die Cluster Aufteilung nicht mehr ändert. Wenn sich die Cluster in einer Iteration nicht mehr verändern, ist das Verfahren zu Ende!

Der k-Means-Algorithmus setzt sich dabei aus folgenden, wiederholt durchzuführenden Schritten zusammen:

k-Means

In diesem Verfahren liegt also eine Repräsentation der k-Cluster durch ihre Schwerpunkte vor, wodurch das Verfahren auch seinen Namen erhalten hat: k-Means-Methode. Dieses nicht-hierarchische Verfahren ermöglicht es, im Unterschied zu hierarchischen Verfahren, dass sich die Zuordnungen der Objekte zu den Clustern im Laufe des Prozesses ändern können. Die Clusterzuordnungen sind also nicht endgültig.

Ein Nachteil des Verfahrens ist darin begründet, dass die Clusterlösung von der Reihenfolge der Objekte in der Startpartition (erste Clusterlösung) abhängt. Es ist daher ratsam, mit unterschiedlichen Startpartitionen zu arbeiten, bei denen sich die Reihenfolgen der Cluster und der Objekte in den Clustern unterscheiden. Jene Lösung, die durch unterschiedliche Startpartitionen am öftesten bestätigt wird, sollte schließlich gewählt werden.

DATAtab berechnet daher 10-mal die Clusteranalyse mit jeweils zufällig bestimmten Startpunkten und wählt aus diesen 10 Clusteranalysen die beste aus. Diese wird dann den BenutzerInnen angezeigt. Diese beste Lösung ist dadurch definiert, dass sie die kleinste Summe der Abstände zwischen den Punkten und dem jeweiligen Cluster aufweist.

Optimale Cluster Anzahl

Die Zahl der Cluster muss beim k-Means Verfahren vor Beginn festgelegt werden und wird daher nicht durch das Cluster Verfahren bestimmt. Aber was ist nun die optimale Anzahl an Clustern beim k-Means Verfahren? Hierfür gibt es mit der Ellenbogen-Methode einen gängigen Weg, um die geeignete Anzahl der Cluster zu bestimmen.

Die Ellenbogen-Methode (Elbow Method)

Mit jedem neuen Cluster wird die Gesamtvariation in jedem Cluster kleiner und kleiner. Im Extremfall, wenn es gleich viele Cluster wie Punkte gibt, ist das Ergebnis null. In den meisten Fällen wird die Verkleinerung der Gesamtvariation ab einem bestimmten Punkt kleiner. Dieser Punkt wird dann als optimale Clusteranzahl verwendet.


Statistik leichtgemacht

  • Viele anschauliche Beispiele
  • Ideal für Prüfungen und Abschlussarbeiten
  • Statistik leichtgemacht auf 321 Seiten
  • 4. überarbeitete Auflage (April 2024)
  • Nur 7,99 €
Leseprobe
Datatab

"Super einfach geschrieben"

"Einfacher geht es nicht"

"Soviele hilfreiche Beispiele"

Fragebogen leichtgemacht

Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,

  • Viele anschauliche Beispiele
  • Ideal für die Abschlussarbeit
  • Fragebogen leichtgemacht auf 61 Seiten
  • 3. überarbeitete Auflage (April 2024)
  • Nur 3,99 €
Leseprobe
Datatab

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.

Datatab
Leseprobe

Literatur

Statistik: Der Weg zur Datenanalyse.
Fahrmeir, L. Heumann, C. Künstler, R. Pigeot, I. & Tutz, G.
Zum Buch auf Amazon
Statistik für Human- und Sozialwissenschaftler: Limitierte Sonderausgabe.
Bortz, J. & Schuster, C.
Zum Buch auf Amazon
Fit fürs Studium – Statistik: Alle Grundlagen verständlich erklärt. Geeignet für Studiengänge mit statistischen Methoden: VWL, BWL, Informatik etc.
Grabinger B.
Zum Buch auf Amazon
Multivariate Analysemethoden: Eine anwendungsorientierte Einführung.
Backhaus, K. Erichson, B. Plinke, P. & Weiber, R.
Zum Buch auf Amazon
evaluiert: erweitertes Planungsbuch für Evaluationen im Bildungsbereich
Balzer, L. & Beywl, W.
Zum Buch auf Amazon
Basiswissen Medizinische Statistik.
Weiß, C.
Zum Buch auf Amazon
Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften.
Doring, N. & Bortz, J.
Zum Buch auf Amazon

DATAtab zitieren: DATAtab Team (2024). DATAtab: Online Statistics Calculator. DATAtab e.U. Graz, Austria. URL https://datatab.de

Kontakt & Support Beratung FAQ & About Us Statistik Software Impressum & Datenschutz