Hierarchische Clusteranalyse
BeispieldatenEine hierarchische Clusteranalyse ist eine Clustermethode, die einen hierarchischen Baum bzw. ein Dendrogramm der zu clusternden Objekte erstellt.
Der Baum stellt die Beziehungen zwischen den Objekten dar und zeigt, wie die Objekte auf verschiedenen Ebenen zu Clustern zusammengefasst werden.
Beispiel Hierarchische Clusteranalyse
Beispiel: Wir haben Personen danach gefragt, wie viel Stunden sie in der Woche auf Social Media Plattformen und im Fitnessstudio verbringen.
Wir möchten nun wissen, ob es Cluster in diesem Datensatz gibt und führen eine Hierachische Clusteranalyse durch.
Wie wird eine Hierachische Clusteranalyse berechnet?
Als erstes tragen wir uns die Punkte in einem Streudiagramm ein.
Damit können wir nun beginnen die Cluster zu erstellen. Im ersten Schritt wird jedem einzelnen Punkt ein Cluster zugeordnet. Wir haben also soviel Cluster, wie wir Personen haben.
Das Ziel ist es nun: Nach und nach immer mehr Cluster zusammenlegen, bis schließlich alle Punkte in einem Cluster sind.
In jedem Schritt werden immer die Cluster zusammengelegt, die am nächsten zusammen liegen. Was heißt „am nächsten zusammen liegen“?
Hierfür müssen wir zwei Dinge festlegen:
- Wie die Distanz bzw. der Abstand zwischen zwei Punkten gemessen wird.
- Wie Punkte in einem Cluster verknüpft werden.
Distanz zwischen zwei Punkten
Starten wir mit der Frage, wie wir die Distanz zwischen zwei Punkten berechnen? Hier sind die bekanntesten Distanzen:
- die Euklidische Distanz,
- die Manhattan Distanz
- und die Maximum Distanz.
Nehmen wir dafür die Distanz zwischen Max und Caro her. Die Differenz auf der y-Achse ergibt sich mit 1 und die Differenz auf der x-Achse mit 4.
Euklidische Distanz
Der Euklidisch-Abstand ergibt sich aus der Wurzel von der Summe der quadreirten Differenzen.
Manhattan Distanz
Bei der Manhattan Distanz wird die Summe der absoluten Differenzen verwendet. Wir berechnen also einfach 4 plus 1 und halten damit eine Distanz von 5
Maximum Distanz
Bei der Maximum Distanz wird einfach der Maximalwert der absoluten Differenzen verwendet. In diesem Fall ist das 4.
Verknüpfungsmethode (Linking method)
Nachdem wir nun wissen, welche Wege es gibt die Distanzen zwischen Punkten zu berechnen müssen wir nun noch festlegen, wie die Punkte innerhalb eines Clusters verknüpft werden.
Sagen wir, wir haben ein Cluster mit den Punkten Joe und Lisa und ein Cluster mit Max und Caro. Wie bestimmen wir nun den Abstand zwischen diesen beiden Clustern? Hier sind die bekanntesten Methoden:
- Single-linkage,
- Complete-linkage
- und Average-linkage.
Single-linkage
Bei Single-Linkage wird der Abstand zwischen den nähesten Elementen im Cluster verwendet. Also der Abstand zwischen Caro und Joe.
Complete-linkage
Bei Complete Linkage wird der Abstand zwischen den am weitesten entfernten Elementen des Clusters verwendet. Also zwischen Max und Joe.
Average-linkage
Bei Average-Linkage wird der Durchschnitt aller paarweisen Abstände verwendet. Von jeder Kombination wird der Abstand berechnet und davon der Mittelwert.
Beispiel Hierarchische Clusteranalyse
Für unser Beispiel verwenden wir die Euklidisch-Distanz und die Single-Linkage Methode. Wir brauchen nun also von jedem Cluster den Abstand zu den anderen Clustern.
Hierfür müssen wir uns zunächst die Abstandsmatrix (Distanzmatrix) berechnen. In der Abstandsmatrix tragen wir auf beiden Dimensionen jeweils die Cluster auf und berechnen dann die Abstände von jedem Cluster zu jedem anderen Cluster.
Der Abstand zwischen Alan und Lisa ergibt sich durch:
Das können wir nun noch für alle anderen Kombinationen machen, bis wir die gesamte Abstandsmatrix berechnet haben. Nun können wir die ersten Cluster zusammenlegen. Hierfür schauen wir, zwischen welchen beiden Clustern der geringste Abstand vorliegt. Das ist zwischen Joe und Lisa der Fall.
Damit verbinden wir nun Joe und Lisa zu einem Cluster. In unserem Baumdiagram bzw. Dendrogramm können wir die erste Verbindung einzeichnen.
Nun müssen wir unsere Abstandsmatrix aktualisieren. Wir haben uns für die Single-Linkage Methode entschieden. Also ergibt sich der Abstand zwischen zwei Clustern durch die Elemente die sich am nächsten sind. Zu den Clustern Alan, Max und Caro ist aus dem Cluster Lisa und Joe jeweils immer Joe die näheste Person.
Also berechnen wir den Abstand von Alan zu Joe, den Abstand von Max zu Joe und den Abstand von Caro zu Joe.
Nun legen wir wieder die Cluster zusammen, die sich am nächsten sind. Das sind Max und Alan.
In unserem Baumdiagram bzw. Dendrogramm können wir die zweite Verbindung einzeichnen.
Nun aktualisieren wir wieder die Abstandsmatrix. Wir berechnen den Abstand zwischen Alan und Joe, Caro und Joe und zwischen Caro und Alan. Den kleinste Abstand erhalten wir zwischen dem Cluster Caro und dem Cluster Lisa und Joe.
Also verbinden wir diese beiden Cluster und zeichnen uns die dritte Verbindung in das Baumdiagramm ein.
Jetzt gibt es nur noch zwei Cluster, die wir im letzten Schritt zusammenlegen. Und wir erhalten unser fertiges Dendrogramm.
Hierarchische Clusteranalyse mit DATAtab berechnen
BeispieldatenUm eine hierarchische Clusteranalyse online zu berechne, besuche einfach den Statistik Rechner und kopiere deine eigenen Daten in die Tabelle bzw. verwende den Link, um den Datensatz zu laden. Nun klicken wir auf cluster und wählen hierarchische Cluster aus.
Wenn wir nun Social Media und Gym anklicken wird uns eine hierarchische Clusteranalyse berechnet. Zusätzlich können wir noch den Label angeben, also in unserem Fall die Namen der Personen.
Nun können wir noch festlegen, welche Verbindungsmethode verwendet werden soll und wie der Abstand berechnet werden soll. Wir nehmen einfach wieder Single linakge und die euklidische Distanz.
Nun bekommen wir hier unten die Ergebnisse ausgegeben. Wir sehen das Baumdiagramm, ein Streudiagramm und den Ellbogen-Plot. In dem Ellbogen Plot können wir nun ablesen, wie viele Cluster wir nehmen. Wir können hier einen Knick sehen, also nehmen wir 4 als Clusteranzahl. Diese können wir hier oben noch auswählen und dann bekommen wir in dem Baumdiagramm die 4 Cluster durch verschiedene Farben hervorgehoben. Wir sehen das erste Cluster, das zweite, das dritte und das vierte Cluster.
Statistik leichtgemacht
- Viele anschauliche Beispiele
- Ideal für Prüfungen und Abschlussarbeiten
- Statistik leichtgemacht auf 321 Seiten
- 4. überarbeitete Auflage (April 2024)
- Nur 7,99 €
"Super einfach geschrieben"
"Einfacher geht es nicht"
"Soviele hilfreiche Beispiele"
Fragebogen leichtgemacht
Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,
- Viele anschauliche Beispiele
- Ideal für die Abschlussarbeit
- Fragebogen leichtgemacht auf 61 Seiten
- 3. überarbeitete Auflage (April 2024)
- Nur 3,99 €
Statistik leichtgemacht
Endlich ohne Probleme Statistik verstehen.
Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.