Menu

Korrelationsanalyse

Was ist eine Korrelationsanalyse?

Die Korrelationsanalyse ist ein statistisches Verfahren, welches dir eine Auskunft über den Zusammenhang zwischen Variablen gibt.

Mithilfe von Korrelationsanalysen kann der Zusammenhang von Variablen untersucht werden, daher wird auch oft von Zusammenhangsanalysen gesprochen. Wie stark eine Korrelation ist, ergibt sich über den Korrelationskoeffizienten, der zwischen -1 bis +1 schwankt. Damit kann mit der Korrelationsanalysen eine Aussage über die Stärke und die Richtung des Zusammenhangs zwischen zwei Variablen gemacht werden.

Beispiel

Gibt es einen Zusammenhang zwischen dem Alter, in dem ein Kind die ersten Sätze spricht und dem späteren Schulerfolg.

Korrelation und Kausalität

Wenn aus der Korrelationsanalyse hervorgeht, dass zwei Merkmale miteinander zusammenhängen, kann in weiterer Folge geprüft werden, ob ein Merkmal zur Vorhersage des anderen Merkmals verwendet werden kann. Wird der im Beispiel genannte Zusammenhang etwa bestätigt, kann geprüft werden, ob der Schulerfolg durch das Alter, in dem ein Kind die ersten Sätze spricht, mittels einer linearen Regression vorhergesagt werden kann.

Achtung! Bei einer Korrelation muss es sich nicht um Kausalbeziehungen handeln. Aufgedeckte Korrelationen sollten somit näher untersucht, aber niemals sofort inhaltlich interpretiert werden, auch wenn das naheliegend wäre.

Korrelation und Kausalität Beispiel:

Wird der Zusammenhang zwischen Verkaufszahlen und Preis analysiert und ein starker Zusammenhang tritt auf, wäre es zwar durchaus logisch anzunehmen, dass die Verkaufszahlen durch den Preis beeinflusst werden (und nicht umgekehrt), aber diese Annahme lässt sich auf Basis einer Korrelationsanalyse keinesfalls beweisen.

Des Weiteren kann es vorkommen, dass die Korrelation zwischen Variable A und B durch die Variable z erzeugt wird, mehr dazu unter Partialkorrelation.

Je nachdem, welche Variablen du verwendest, kann es aber auch sein, dass du gleich zu Beginn von einem kausalen Zusammenhang sprechen kannst. Zum Beispiel wenn es eine Korrelation zwischen dem Alter und dem Gehalt gibt, ist es klar, dass das Alter das Gehalt beeinfluss und nicht andersherum, sonst würde jeder möglichst wenig Gehalt verdienen wollen : )

Korrelation interpretieren

Die Korrelationsanalyse ermöglicht zwei Aussagen:

  • eine über die Richtung
  • und eine über die Stärke

des linearen Zusammenhangs zwischen zwei metrisch oder ordinal skalierten Variablen. Die Richtung gibt an, ob die Korrelation positiv oder negativ ist, während die Stärke angibt, ob die Korrelation zwischen den Variablen stark oder schwach ist.

Positive Korrelation

Eine positive Korrelation liegt vor, wenn größere Werte von Variable A mit größeren Werten von Variable B einhergehen. Körpergröße und Schuhgröße korrelieren z.B. positiv und es ergibt sich ein Korrelationskoeffizient, der zwischen 0 und 1 liegt, also einen positiven Wert annimmt.

Negative Korrelation

Eine negative Korrelation liegt vor, wenn größere Werte von Variable A mit kleineren Werten von Variable B einhergehen. Der Preis eines Produkts und die Absatzmenge haben in der Regel eine negative Korrelation. Dies bedeutet, dass je teurer ein Produkt ist, desto geringer ist seine Absatzmenge. Der Korrelationskoeffizient liegt in diesem Fall zwischen -1 und 0, nimmt also einen negativen Wert an.

Stärke der Korrelation

Bezüglich der Stärke des Korrelationskoeffizienten r kann die folgende Tabelle als Richtwert herangezogen werden:

Betrag von r Stärke des Zusammenhangs
0,0 < 0,1 kein Zusammenhang
0,1 < 0,3 geringer Zusammenhang
0,3 < 0,5 mittlerer Zusammenhang
0,5 < 0,7 hoher Zusammenhang
0,7 < 1 sehr hoher Zusammenhang
Aus Kuckartz et al.: Statistik, Eine verständliche Einführung, 2013, S. 213

Tipp: Auf DATAtab kannst du direkt online den Korrelationskoeffizient berechnen.

Streudiagramm und Korrelation

Genau so wichtig wie die Betrachtung des Korrelationskoeffizienten ist die grafische Betrachtung von dem Zusammenhang zweier Variablen in einem Streudiagramm.

Streudiagramm und Korrelation

Das Streudiagramm gibt dir eine grobe Einschätzung, ob es einen Zusammenhang gibt, ob dieser linear oder nichtlinear ist und ob es Ausreißer gibt.

Korrelation auf Signifikanz prüfen

Gibt es in der Stichprobe eine Korrelation, ist noch zu prüfen, ob diese auch in der Grundgesamtheit vorliegt oder nur zufällig entstanden ist. Es stellt sich also die Frage, ab welchem Betrag ein Korrelationskoeffizient als statistisch signifikant betrachtet werden kann.

Die Signifikanz von Korrelationskoeffizienten kann mithilfe eines t-Tests überprüft werden. In der Regel wird dabei analysiert, ob der Korrelationskoeffizient signifikant von null abweicht. Es wird somit die lineare Unabhängigkeit geprüft. In diesem Fall lautet die Nullhypothese, dass es keinen Zusammenhang bzw. keine Korrelation in der Grundgesamtheit gibt. Im Gegensatz dazu, geht die Alternativhypothese davon aus, dass ein Zusammenhang besteht.

Gleich wie bei jedem anderen Hypothesentest, wird zunächst das Signifikanzniveau festgelegt, in der Regel liegt dieses bei 5%. Liegt der berechnete p-Wert unter 5%, wird die Nullhypothese verworfen und die Alternativhypothese gilt. In diesem Fall wird also davon ausgegangen, dass es einen Zusammenhang zwischen den Variablen in der Grundgesamtheit gibt.

Der t-Wert für die Überprüfung der Hypothese ergibt sich mit

t-Wert Korrelation

wobei n die Stichprobengröße ist und r die ermittelte Korrelation in der Stichprobe. Der zugehörige p-Wert kann im Korrelationsrechner auf DATAtab ganz einfach berechnet werden.

Gerichtet und ungerichtet Hypothesen

Mit der Korrelationsanalyse kannst du gerichtet und ungerichtet Zusammenhangshypothesen prüfen.

Ungerichtet Zusammenhangshypothese:

Dich interessiert nur, ob es einen Zusammenhang bzw. eine Korrelation zwischen zwei Variablen gibt, z.B. ob es eine Korrelation zwischen dem Alter und dem Gehalt gibt, dich interessiert aber nicht, in welche Richtung diese Korrelation geht.

Gerichtet Zusammenhangshypothese:

Dich interessiert auch die Richtung des Zusammenhangs, also ob es eine positive bzw. negative Korrelation zwischen den Variablen gibt.

Deine Alternativhypothese ist dann z.B. das Alter hat einen positiven Einfluss auf das Gehalt. Wodrauf du im Falle einer gerichteten Hypothese achten musst, gehen wir ganz unten in dem Beispiel durch.

Korrelationsanalyse nach Pearson

Mit der Korrelationsanalyse nach Pearson erhältst du eine Aussage über den linearen Zusammenhang zwischen metrisch skalierten Variablen. Zur Berechnung wird die jeweilige Kovarianz herangezogen. Die Kovarianz ergibt einen positiven Wert, wenn ein positiver Zusammenhang zwischen den Variablen besteht und einen negativen Wert, wenn ein negativer Zusammenhang vorliegt. Die Kovarianz berechnet sich folgendermaßen:

Kovarianz Gleichung

Die Kovarianz ist jedoch nicht normiert und kann Werte zwischen plus und minus unendlich annehmen. Somit ist es schwer die Stärke von Zusammenhängen unterschiedlicher Variablen zu vergleichen. Aus diesem Grund wird der Korrelationskoeffizient, auch Produkt-Moment-Korrelation genannt, berechnet. Der Korrelationskoeffizient ergibt sich, indem die Kovarianz normiert wird. Für diese Normierung werden die Varianzen der zwei beteiligten Variablen verwendet und der Korrelationskoeffizient wird folgendermaßen ermittelt:

Pearson Korrelation Gleichung

Der Pearson-Korrelationskoeffizient kann Werte zwischen -1 und +1 annehmen und lässt sich wie folgt interpretieren:

  • Der Wert +1 bedeutet, dass ein gänzlich positiver linearer Zusammenhang vorliegt (je mehr, desto mehr).
  • Der Wert -1 gibt an, dass ein gänzlich negativer linearer Zusammenhang besteht (je mehr, desto weniger).
  • Bei einem Wert von 0 liegt kein linearer Zusammenhang vor, die Variablen korrelieren nicht miteinander.
Korrelationskoeffizient

Schließlich kann auch die Stärke des Zusammenhangs interpretiert werden. Dies lässt sich anhand der folgenden Tabelle veranschaulichen:

Betrag von r Stärke des Zusammenhangs
0,0 < 0,1 kein Zusammenhang
0,1 < 0,3 geringer Zusammenhang
0,3 < 0,5 mittlerer Zusammenhang
0,5 < 0,7 hoher Zusammenhang
0,7 < 1 sehr hoher Zusammenhang

Um vorab zu überprüfen, ob ein linearer Zusammenhang vorliegt, sollten Streudiagramme betrachtet werden. So kann der jeweilige Zusammenhang zwischen den Variablen vorab auch visuell überprüft werden. Die Pearson-Korrelation ist nur beim Vorliegen linearer Zusammenhänge sinnvoll und zielführend.

Voraussetzungen der Pearson-Korrelation

Damit die Pearson Korrelation verwendet werden kann, müssen die Variablen normalverteilt sein und es muss einen linearen Zusammenhang zwischen ihnen geben. Die Normalverteilung kann entweder analytisch oder grafisch mit dem Q-Q Plot geprüft werden. Ob die Variablen einen linearen Zusammenhang aufweisen prüft man am besten mit einem Streudiagramm.

Sind diese Voraussetzungen nicht erfüllt, dann wird die Spearman-Korrelation verwendet.

Spearman Rangkorrelation

Die Korrelationsanalyse nach Spearman dient dazu, den Zusammenhang zwischen zwei Variablen zu berechnen, die ordinales Skalenniveau aufweisen. Bei der Rangkorrelation nach Spearman handelt es sich um das nicht parametrische Äquivalent der Korrelationsanalyse nach Pearson. Dieses Verfahren wird also dann angewendet, wenn die Voraussetzungen einer Korrelationsanalyse (=parametrisches Verfahren) nicht gegeben sind, also keine metrischen Daten und keine Normalverteilung vorliegen. Häufig wird in diesem Zusammenhang auch von "Spearman-Korrelation" oder "Spearmans Rho" gesprochen, wenn die Spearman Rangkorrelation gemeint ist.

Die Fragestellungen, welche mittels Spearman Rangkorrelation behandelt werden können, gleichen jenen des Pearson Korrelationskoeffizienten. Diese lauten: „Gibt es einen Zusammenhang zwischen zwei Variablen bzw. Merkmalen?“, also inhaltlich zum Beispiel: „Gibt es einen Zusammenhang zwischen dem Alter und der Religiosität in der österreichischen Bevölkerung?“

Die Berechnung der Rangkorrelation basiert auf dem System der Rangierung der Datenreihe. Somit wird dabei nicht mit den Messwerten gerechnet, sondern diese werden zu Rängen transformiert. Der Test wird schließlich anhand dieser Ränge durchgeführt.

Beim Rangkorrelationskoeffizienten (ρ) sind Werte zwischen -1 und 1 möglich. Liegt ein Wert kleiner als null (ρ < 0) vor, so besteht ein negativer linearer Zusammenhang. Bei einem Wert grösser als null (ρ> 0) liegt ein positiver linearer Zusammenhang vor und bei einem Wert von null (ρ = 0) handelt es sich um keinen Zusammenhang zwischen den Variablen. Die Stärke des Zusammenhangs kann, wie auch beim Korrelationskoeffizienten nach Spearman folgendermaßen eingestuft werden:

Betrag von r Stärke des Zusammenhangs
0,0 < 0,1 kein Zusammenhang
0,1 < 0,3 geringer Zusammenhang
0,3 < 0,5 mittlerer Zusammenhang
0,5 < 0,7 hoher Zusammenhang
0,7 < 1 sehr hoher Zusammenhang

Punktbiseriale Korrelation

Die punktbiseriale Korrelation wird dann verwendet, wenn eine der Variablen dichotom ist, z.B. studiert und nicht studiert, und die andere metrisches Skalenniveau aufweist, z.B. das Gehalt.

Die Berechnung einer punktbiseriale Korrelation ist gleich wie die Berechnung der Pearson Korrelation. Um sie zu berechnen, wird eine der beiden Ausprägungen der dichotomen Variable mit 0 kodiert und die andere mit 1.

Korrelationsanalyse mit DATAtab berechnen

Rechne das Beispiel direkt mit DATAtab kostenlos nach:

Korrelationsanalyse Datensatz laden

Eine Studentin möchte wissen, ob es eine Korrelation zwischen der Körpergröße und dem Gewicht der TeilnehmerInnen im Statistik-Kurs gibt. Hierfür hat die Studentin eine Stichprobe gezogen, welche in der untenstehenden Tabelle beschrieben wird.

Körpergröße Gewicht
1,62 53
1,72 71
1,85 85
1,82 86
1,72 76
1,55 62
1,65 68
1,77 77
1,83 97
1,53 65

Um mittels einer Korrelationsanalyse die linearen Zusammenhänge zu analysieren, kannst du mit DATAtab eine Korrelation berechnen. Kopiere dazu zunächst die obenstehende Tabelle in den Statistik Rechner.

Dann klickst du auf „Korrelation“ und wählst die zwei Variablen aus dem Beispiel aus. Schließlich erhältst du die folgende Ergebnisse.

Beispiel Pearson-Korrelation

Zunächst werden dir die Null und die Alternetivhypothese ausgegeben. Die Nullhypothese ist: "Es gibt keinen Zusammenhang zwischen Körpergröße und Gewicht". Anschließend bekommst du den Korrelationskoeffizient und den p Wert ausgegeben. Wenn du auf Zusammenfassung in Worten klickst, bekommst du folgende Interpreation ausgegeben:

Eine Pearson Korrelationsanalyse wurde durchgeführt, um zu testen, ob es einen Zusammenhang zwischen Körpergröße und Gewicht gibt. Das Ergebnis der Pearson Korrelationsanalyse zeigte, dass es einen signifikante Zusammenhang zwischen Körpergröße und Gewicht gab, r(8) = 0,86, p = 0,001.

Zwischen den Variablen Körpergröße und Gewicht liegt mit r= 0,86 eine sehr hohe, positive Korrelation vor. Es besteht also ein sehr hoher, positiver Zusammenhang in dieser Stichprobe zwischen Körpergröße und Gewicht.

Gerichtete Zusammenhangshypothese

Natürlich kannst du bei DATatab auch auswählen, dass du eine gerichtete Hypothese berechnen möchtest.

Gerichtete Zusammenhangshypothese

In diesem Fall musst du zunächst prüfen, ob die Korrelation überhaupt in die Richtung der Alternativhypothese geht, also dass die Körpergröße und das Gewicht positiv korrelieren. Ist das der Fall, muss der berechnete p-Wert durch zwei geteilt werden, da nur eine Seite der Verteilung betrachtet wird. Diese beiden Schritte übernimmt aber DATAtab für dich. Die Zusammenfassung in Worten sieht dann folgendermaßen aus:

Eine Pearson Korrelationsanalyse wurde durchgeführt, um zu testen, ob es einen positiven Zusammenhang zwischen Körpergröße und Gewicht gibt. Das Ergebnis der Pearson Korrelationsanalyse zeigte, dass es einen signifikante positiven Zusammenhang zwischen Körpergröße und Gewicht gab, r(8) = 0,86, p = <0,001.

Zwischen den Variablen Körpergröße und Gewicht liegt mit r= 0,86 eine sehr hohe, positive Korrelation vor. Es besteht also ein sehr hoher, positiver Zusammenhang in dieser Stichprobe zwischen Körpergröße und Gewicht.


Statistik leichtgemacht

  • Viele anschauliche Beispiele
  • Ideal für Prüfungen und Abschlussarbeiten
  • Statistik leichtgemacht auf 321 Seiten
  • 4. überarbeitete Auflage (April 2024)
  • Nur 7,99 €
Leseprobe
Datatab

"Super einfach geschrieben"

"Einfacher geht es nicht"

"Soviele hilfreiche Beispiele"

Fragebogen leichtgemacht

Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,

  • Viele anschauliche Beispiele
  • Ideal für die Abschlussarbeit
  • Fragebogen leichtgemacht auf 61 Seiten
  • 3. überarbeitete Auflage (April 2024)
  • Nur 3,99 €
Leseprobe
Datatab

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.

Datatab
Leseprobe

Literatur

Statistik: Der Weg zur Datenanalyse.
Fahrmeir, L. Heumann, C. Künstler, R. Pigeot, I. & Tutz, G.
Zum Buch auf Amazon
Statistik für Human- und Sozialwissenschaftler: Limitierte Sonderausgabe.
Bortz, J. & Schuster, C.
Zum Buch auf Amazon
Fit fürs Studium – Statistik: Alle Grundlagen verständlich erklärt. Geeignet für Studiengänge mit statistischen Methoden: VWL, BWL, Informatik etc.
Grabinger B.
Zum Buch auf Amazon
Multivariate Analysemethoden: Eine anwendungsorientierte Einführung.
Backhaus, K. Erichson, B. Plinke, P. & Weiber, R.
Zum Buch auf Amazon
evaluiert: erweitertes Planungsbuch für Evaluationen im Bildungsbereich
Balzer, L. & Beywl, W.
Zum Buch auf Amazon
Basiswissen Medizinische Statistik.
Weiß, C.
Zum Buch auf Amazon
Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften.
Doring, N. & Bortz, J.
Zum Buch auf Amazon

DATAtab zitieren: DATAtab Team (2024). DATAtab: Online Statistics Calculator. DATAtab e.U. Graz, Austria. URL https://datatab.de

Kontakt & Support Beratung FAQ & About Us Statistik Software Impressum & Datenschutz