Menu

Hierarchische Clusteranalyse

Beispieldaten

Eine hierarchische Clusteranalyse ist eine Clustermethode, die einen hierarchischen Baum bzw. ein Dendrogramm der zu clusternden Objekte erstellt.

Hierarchische Clusteranalyse Dendrogramm

Der Baum stellt die Beziehungen zwischen den Objekten dar und zeigt, wie die Objekte auf verschiedenen Ebenen zu Clustern zusammengefasst werden.

Beispiel Hierarchische Clusteranalyse

Beispiel: Wir haben Personen danach gefragt, wie viel Stunden sie in der Woche auf Social Media Plattformen und im Fitnessstudio verbringen.

Hierarchische Clusteranalyse Beispieldaten

Wir möchten nun wissen, ob es Cluster in diesem Datensatz gibt und führen eine Hierachische Clusteranalyse durch.

Wie wird eine Hierachische Clusteranalyse berechnet?

Als erstes tragen wir uns die Punkte in einem Streudiagramm ein.

Streudiagramm Hierarchische Clusteranalyse

Damit können wir nun beginnen die Cluster zu erstellen. Im ersten Schritt wird jedem einzelnen Punkt ein Cluster zugeordnet. Wir haben also soviel Cluster, wie wir Personen haben.

jeder Punkt ein Cluster

Das Ziel ist es nun: Nach und nach immer mehr Cluster zusammenlegen, bis schließlich alle Punkte in einem Cluster sind.

Cluster berechnen Hierarchische Clusteranalyse

In jedem Schritt werden immer die Cluster zusammengelegt, die am nächsten zusammen liegen. Was heißt „am nächsten zusammen liegen“?

Hierfür müssen wir zwei Dinge festlegen:

  • Wie die Distanz bzw. der Abstand zwischen zwei Punkten gemessen wird.
  • Wie Punkte in einem Cluster verknüpft werden.

Distanz zwischen zwei Punkten

Starten wir mit der Frage, wie wir die Distanz zwischen zwei Punkten berechnen? Hier sind die bekanntesten Distanzen:

  • die Euklidische Distanz,
  • die Manhattan Distanz
  • und die Maximum Distanz.

Nehmen wir dafür die Distanz zwischen Max und Caro her. Die Differenz auf der y-Achse ergibt sich mit 1 und die Differenz auf der x-Achse mit 4.

Euklidische Distanz

Der Euklidisch-Abstand ergibt sich aus der Wurzel von der Summe der quadreirten Differenzen.

Euklidische Distanz

Manhattan Distanz

Bei der Manhattan Distanz wird die Summe der absoluten Differenzen verwendet. Wir berechnen also einfach 4 plus 1 und halten damit eine Distanz von 5

Manhattan Distanz

Maximum Distanz

Bei der Maximum Distanz wird einfach der Maximalwert der absoluten Differenzen verwendet. In diesem Fall ist das 4.

Maximum Distanz

Verknüpfungsmethode (Linking method)

Nachdem wir nun wissen, welche Wege es gibt die Distanzen zwischen Punkten zu berechnen müssen wir nun noch festlegen, wie die Punkte innerhalb eines Clusters verknüpft werden.

Verknüpfungsmethode Hierarchische Clusteranalyse

Sagen wir, wir haben ein Cluster mit den Punkten Joe und Lisa und ein Cluster mit Max und Caro. Wie bestimmen wir nun den Abstand zwischen diesen beiden Clustern? Hier sind die bekanntesten Methoden:

  • Single-linkage,
  • Complete-linkage
  • und Average-linkage.

Single-linkage

Bei Single-Linkage wird der Abstand zwischen den nähesten Elementen im Cluster verwendet. Also der Abstand zwischen Caro und Joe.

Single-linkage

Complete-linkage

Bei Complete Linkage wird der Abstand zwischen den am weitesten entfernten Elementen des Clusters verwendet. Also zwischen Max und Joe.

Complete-linkage

Average-linkage

Bei Average-Linkage wird der Durchschnitt aller paarweisen Abstände verwendet. Von jeder Kombination wird der Abstand berechnet und davon der Mittelwert.

Complete-linkage

Beispiel Hierarchische Clusteranalyse

Für unser Beispiel verwenden wir die Euklidisch-Distanz und die Single-Linkage Methode. Wir brauchen nun also von jedem Cluster den Abstand zu den anderen Clustern.

Abstände zwischen Cluster

Hierfür müssen wir uns zunächst die Abstandsmatrix (Distanzmatrix) berechnen. In der Abstandsmatrix tragen wir auf beiden Dimensionen jeweils die Cluster auf und berechnen dann die Abstände von jedem Cluster zu jedem anderen Cluster.

Abstandsmatrix Distanzmatrix

Der Abstand zwischen Alan und Lisa ergibt sich durch:

Abstandsmatrix berechnen

Das können wir nun noch für alle anderen Kombinationen machen, bis wir die gesamte Abstandsmatrix berechnet haben. Nun können wir die ersten Cluster zusammenlegen. Hierfür schauen wir, zwischen welchen beiden Clustern der geringste Abstand vorliegt. Das ist zwischen Joe und Lisa der Fall.

Beispiel Hierarchische Clusteranalyse

Damit verbinden wir nun Joe und Lisa zu einem Cluster. In unserem Baumdiagram bzw. Dendrogramm können wir die erste Verbindung einzeichnen.

Erste Verbindung im Baumdiagramm

Nun müssen wir unsere Abstandsmatrix aktualisieren. Wir haben uns für die Single-Linkage Methode entschieden. Also ergibt sich der Abstand zwischen zwei Clustern durch die Elemente die sich am nächsten sind. Zu den Clustern Alan, Max und Caro ist aus dem Cluster Lisa und Joe jeweils immer Joe die näheste Person.

Hierarchische Cluster zusammenlegen

Also berechnen wir den Abstand von Alan zu Joe, den Abstand von Max zu Joe und den Abstand von Caro zu Joe.

Nun legen wir wieder die Cluster zusammen, die sich am nächsten sind. Das sind Max und Alan.

Hierarchisches Clustering Beispiel

In unserem Baumdiagram bzw. Dendrogramm können wir die zweite Verbindung einzeichnen.

Dendrogramm Verbindung

Nun aktualisieren wir wieder die Abstandsmatrix. Wir berechnen den Abstand zwischen Alan und Joe, Caro und Joe und zwischen Caro und Alan. Den kleinste Abstand erhalten wir zwischen dem Cluster Caro und dem Cluster Lisa und Joe.

Hierarchisches Clustering cluster zusammenlegen

Also verbinden wir diese beiden Cluster und zeichnen uns die dritte Verbindung in das Baumdiagramm ein.

Jetzt gibt es nur noch zwei Cluster, die wir im letzten Schritt zusammenlegen. Und wir erhalten unser fertiges Dendrogramm.

Ein großes Cluster berechnen

Hierarchische Clusteranalyse mit DATAtab berechnen

Beispieldaten

Um eine hierarchische Clusteranalyse online zu berechne, besuche einfach den Statistik Rechner und kopiere deine eigenen Daten in die Tabelle bzw. verwende den Link, um den Datensatz zu laden. Nun klicken wir auf cluster und wählen hierarchische Cluster aus.

Wenn wir nun Social Media und Gym anklicken wird uns eine hierarchische Clusteranalyse berechnet. Zusätzlich können wir noch den Label angeben, also in unserem Fall die Namen der Personen.

Hierarchische Clusteranalyse mit DATAtab berechnen

Nun können wir noch festlegen, welche Verbindungsmethode verwendet werden soll und wie der Abstand berechnet werden soll. Wir nehmen einfach wieder Single linakge und die euklidische Distanz.

Hierarchische Clusteranalyse online berechnen

Nun bekommen wir hier unten die Ergebnisse ausgegeben. Wir sehen das Baumdiagramm, ein Streudiagramm und den Ellbogen-Plot. In dem Ellbogen Plot können wir nun ablesen, wie viele Cluster wir nehmen. Wir können hier einen Knick sehen, also nehmen wir 4 als Clusteranzahl. Diese können wir hier oben noch auswählen und dann bekommen wir in dem Baumdiagramm die 4 Cluster durch verschiedene Farben hervorgehoben. Wir sehen das erste Cluster, das zweite, das dritte und das vierte Cluster.


Statistik leichtgemacht

  • Viele anschauliche Beispiele
  • Ideal für Prüfungen und Abschlussarbeiten
  • Statistik leichtgemacht auf 321 Seiten
  • 4. überarbeitete Auflage (April 2024)
  • Nur 7,99 €
Leseprobe
Datatab

"Super einfach geschrieben"

"Einfacher geht es nicht"

"Soviele hilfreiche Beispiele"

Fragebogen leichtgemacht

Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,

  • Viele anschauliche Beispiele
  • Ideal für die Abschlussarbeit
  • Fragebogen leichtgemacht auf 61 Seiten
  • 3. überarbeitete Auflage (April 2024)
  • Nur 3,99 €
Leseprobe
Datatab

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.

Datatab
Leseprobe

Literatur

Statistik: Der Weg zur Datenanalyse.
Fahrmeir, L. Heumann, C. Künstler, R. Pigeot, I. & Tutz, G.
Zum Buch auf Amazon
Statistik für Human- und Sozialwissenschaftler: Limitierte Sonderausgabe.
Bortz, J. & Schuster, C.
Zum Buch auf Amazon
Fit fürs Studium – Statistik: Alle Grundlagen verständlich erklärt. Geeignet für Studiengänge mit statistischen Methoden: VWL, BWL, Informatik etc.
Grabinger B.
Zum Buch auf Amazon
Multivariate Analysemethoden: Eine anwendungsorientierte Einführung.
Backhaus, K. Erichson, B. Plinke, P. & Weiber, R.
Zum Buch auf Amazon
evaluiert: erweitertes Planungsbuch für Evaluationen im Bildungsbereich
Balzer, L. & Beywl, W.
Zum Buch auf Amazon
Basiswissen Medizinische Statistik.
Weiß, C.
Zum Buch auf Amazon
Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften.
Doring, N. & Bortz, J.
Zum Buch auf Amazon

DATAtab zitieren: DATAtab Team (2024). DATAtab: Online Statistics Calculator. DATAtab e.U. Graz, Austria. URL https://datatab.de

Kontakt & Support Beratung FAQ & About Us Statistik Software Impressum & Datenschutz