z-Standardisierung

In diesem Tutorial geht es um die z-Standardisierung (z-Transformation). Wir besprechen was der z-Wert ist, wie die z-Standardisierung funktioniert und was die Standardnormalverteilung ist. Außerdem wird hier erklärt, was die z-Wert-Tabelle ist und wofür sie verwendet wird.

Was ist die z-Standardisierung?

Die z-Standardisierung ist ein statistisches Verfahren, das dazu dient, Datenpunkte aus verschiedenen Datensätzen vergleichbar zu machen. Bei diesem Verfahren wird jeder Datenpunkt in einen z-Score umgewandelt. Ein z-Score gibt an, wie viele Standardabweichungen ein Datenpunkt vom Mittelwert des Datensatzes entfernt ist.

Beispiel z-Standardisierung

Angenommen, du bist Arzt oder Ärztin und möchtest den Blutdruck deiner Patienten untersuchen. Dazu hast du bei einer Stichprobe von 40 Patienten den Blutdruck gemessen. Aus den gemessenen Daten kannst du nun den Mittelwert berechnen, also den Wert, den die 40 Patienten im Durchschnitt haben.

Nun fragt dich einer der Patienten, wie hoch sein Blutdruck im Vergleich zu den anderen Patienten ist. Du sagst ihm, dass sein Blutdruck 10mmHg über dem Durchschnitt liegt. Jetzt stellt sich natürlich die Frage, ob 10mmHg viel oder wenig ist.

Wenn die anderen Patienten sehr eng um den Mittelwert streuen, dann sind 10 mmHg viel im Verhältnis zur Streuung. Wenn die anderen Patienten jedoch sehr weit um den Mittelwert streuen, dann sind 10 mmHg vielleicht nicht so viel.

Wie stark die Daten streuen, sagt uns die Standardabweichung. Wenn die Daten nahe am Mittelwert liegen, haben wir eine kleine Standardabweichung, wenn sie stark streuen, haben wir eine große Standardabweichung.

Sagen wir, für unsere Daten erhalten wir eine Standardabweichung von 20 mmhg. Das heißt, dass im quadratischen Mittel die Patienten um 20 vom Mittelwert abweichen.

z-Standardisierung und Standardabweichung

Der z-Wert sagt uns nun, wie weit eine Person in Einheiten der Standardabweichung vom Mittelwert entfernt ist. Also eine Person, die eine Standardabweichung vom Mittelwert abweicht, hat einen z-Wert von 1, eine Person, die doppelt so weit vom Mittelwert abweicht, hat einen z-Wert von 2 und eine Person, die drei Standardabweichungen vom Mittelwert abweicht, hat einen z-Wert von 3.

Dementsprechend hat eine Person, die um minus eine Standardabweichung abweicht, einen z-Wert von -1, eine Person, die um minus zwei Standardabweichungen abweicht, einen z-Wert von minus 2 und eine Person, die um minus drei Standardabweichungen abweicht, einen z-Wert von minus 3.

Und wenn eine Person genau den Wert des Mittelwertes hat, dann weicht sie natürlich um null Standardabweichung vom Mittelwert ab und erhält den Wert null.

Der z-Wert gibt also an, wie viele Standardabweichungen ein Messwert vom Mittelwert entfernt ist. Wie bereits erwähnt, ist die Standardabweichung nur ein Maß für die Streuung des Blutdrucks der Patienten um den Mittelwert.

Kurz gesagt, der z-Wert hilft uns zu verstehen, wie außergewöhnlich oder normal ein bestimmter Messwert im Vergleich zum Gesamtdurchschnitt ist.

z-Wert berechnen

Wie berechnen wir den z-Wert? Wir wollen die Ausgangsdaten, in unserem Fall den Blutdruck, irgendwie in z-Werte umrechnen, also eine z-Standardisierung durchführen.

Hier sehen wir die Formel für die z-Standardisierung. Hier ist z jener z-Wert, den wir berechnen wollen, x ist der beobachtete Wert, in unserem Fall der Blutdruck der betreffenden Person, μ ist der Mittelwert der Stichprobe, in unserem Fall also der Mittelwert aller 40 Patienten, und σ ist die Standardabweichung der Stichprobe, also die Standardabweichung unserer 40 Patienten.

Achtung: Eigentlich sind μ und σ der Mittelwert und die Standardabweichung der Grundgesamtheit. In unserem Fall haben wir aber nur eine Stichprobe. Unter bestimmten Voraussetzungen, auf die wir später noch eingehen werden, können wir jedoch den Mittelwert und die Standardabweichung mit Hilfe der Stichprobe schätzen.

Angenommen, in unserem Beispiel haben die 40 Patienten einen Mittelwert von 130 und eine Standardabweichung von 20. Wenn wir beide Werte einsetzen, erhalten wir für z: x-130 geteilt durch 20

Nun können wir den Blutdruck von jedem einzelnen Patienten für x einsetzen und uns den z Wert berechnen. Machen wir das einfach mal für den ersten Patienten. Nehmen wir an, dieser Patient hat einen Blutdruck von 97, dann setzen wir einfach 97 für x ein und erhalten damit einen z-Wert von -1,65.

Diese Person weicht also um -1,65 Standardabweichungen vom Mittelwert ab. Das können wir jetzt für alle Patienten machen.

Unabhängig von der Einheit der Ausgangsdaten haben wir jetzt eine Übersicht, in der wir sehen können, wie weit eine Person vom Mittelwert in Einheiten der Standardabweichung abweicht.

Jetzt haben wir natürlich nur eine Stichprobe, die aus einer bestimmten Grundgesamtheit stammt. Aber wenn die Daten normalverteilt sind und die Stichprobengröße größer als 30 ist, dann können wir mit Hilfe des z-Wertes sagen, wie viel Prozent der Patienten einen niedrigeren Blutdruck als z.B. 110 haben und wie viel Prozent einen höheren Blutdruck als 110 haben.

Aber wie geht das? Wenn die Ausgangsdaten normalverteilt sind, erhalten wir durch die z-Standardisierung eine sogenannte Standardnormalverteilung.

z-Standardisierung und Standardnormalverteilung

Die Standardnormalverteilung ist eine bestimmte Art der Normalverteilung mit einem Mittelwert von 0 und einer Standardabweichung von 1.

Die Besonderheit besteht darin, dass jede Normalverteilung, unabhängig von ihrem Mittelwert oder ihrer Standardabweichung, in eine Standardnormalverteilung umgewandelt werden kann.

Da wir nun eine standardisierte Verteilung haben, brauchen wir eigentlich nur noch eine Tabelle, die uns für möglichst viele z-Werte sagt, wie viel Prozent der Werte unter diesem Wert liegen.

Und eine solche Tabelle findest du in fast jedem Statistik Buch oder hier: Tabelle der z-Verteilung. Jetzt ist natürlich die Frage, wie man diese Tabelle liest?

Wenn wir z.B. einen z-Wert von -2 haben, dann können wir aus dieser Tabelle einen Wert von 0,0228 ablesen.

Das bedeutet, dass 2,28% der Werte kleiner als ein z-Wert von -2 sind. Da die Summe immer 10% oder 1 beträgt, sind 97,72 % der Werte größer.

Bei einem z-Wert von Null liegen wir genau in der Mitte und erhalten einen Wert von 0,5. Dies bedeutet, dass 50% der Werte kleiner als ein z-Wert von 0 und 50% der Werte größer als 0 sind. Da die Normalverteilung symmetrisch ist, können wir die Wahrscheinlichkeiten für positive z-Werte genau ablesen.

Wenn wir einen z-Wert von 1 haben, brauchen wir nur nach -1 zu suchen. Wir müssen jedoch beachten, dass wir in diesem Fall einen Wert erhalten, der uns sagt, wie viel Prozent der Werte größer als der z-Wert sind. Bei einem z-Wert von 1 sind also 15,81% der Werte größer und 84,14% der Werte kleiner.

Was aber, wenn wir z.B. aus der Tabelle einen z-Wert von -1,81 ablesen wollen? Dazu brauchen wir die anderen Spalten. Einen z-Wert von -1,81 können wir bei -1,8 und bei 0,01 ablesen.

Nun schauen wir uns das Ganze noch einmal für einen Blutdruckwert an. Wenn wir z.B. wissen wollen, wie viel Prozent der Patienten einen Blutdruck unter 123 haben, können wir mit Hilfe der z-Standardisierung einen Blutdruck von 123 in einen z-Wert umrechnen. In diesem Fall erhalten wir einen z-Wert von -0,35.

Nun können wir die Tabelle mit den z-Verteilungen nehmen und nach einem z-Wert von -0,35 suchen. Hier haben wir einen Wert von 0,3632. Also 36,32 Prozent der Werte sind kleiner als ein z-Wert von -0,35 und 63,68 Prozent sind größer.

Verschiedene Datensätze vergleichen

Es gibt aber noch einen wichtigen Anwendungsfall für die z-Standardisierung. Die z-Standardisierung kann helfen, auf unterschiedliche Weise gemessene Werte vergleichbar zu machen. Hier ein Beispiel.

Angenommen, wir haben zwei Klassen, Klasse A und Klasse B, die einen unterschiedlichen Test in Mathematik geschrieben haben.

z-Standardisierung verschiedene Datensätze vergleichen

Die Tests sind unterschiedlich gestaltet, haben einen unterschiedlichen Schwierigkeitsgrad und eine unterschiedliche maximale Punktzahl.

Um die Leistungen der Schüler der beiden Klassen fair vergleichen zu können, können wir die Z-Standardisierung anwenden.

Die durchschnittliche Punktzahl bzw. der Mittelwert der Klasse A betrug 70 Punkte mit einer Standardabweichung von 10 Punkten. Die durchschnittliche Punktzahl für den Test in Klasse B betrug 140 Punkte mit einer Standardabweichung von 20 Punkten.

Wir wollen nun die Leistung von Max aus der Klasse A, der 80 Punkte erreicht hat, mit der Leistung von Emma aus der Klasse B, die 160 Punkte erreicht hat, vergleichen.

Hierfür berechnen wir den z-Wert von Max und Emma. Wir tragen für x einmal 80 ein und erhalten einen z-Wert von 1. Und wir tragen 160 für x ein und erhalten ebenfalls einen z-Wert von 1.

Die z-Werte von Max und Emma sind also gleich. Das bedeutet, dass beide Schulkinder in Bezug auf die durchschnittliche Leistung und die Streuung in ihrer jeweiligen Klasse gleich gut abgeschnitten haben. Beide liegen genau eine Standardabweichung über dem Mittelwert ihrer Klasse.

Voraussetzungen

Aber was ist mit den Voraussetzungen? Können wir einfach eine z-Standardisierung berechnen und die Tabelle der Standardnormalverteilung verwenden?

Die z-Standardisierung selbst, d.h. die Umrechnung der Datenpunkte in z-Werte mit Hilfe dieser Formel, unterliegt im Wesentlichen keinen strengen Voraussetzungen. Sie kann unabhängig von der Datenverteilung durchgeführt werden.

Wenn wir jedoch die resultierenden z-Werte im Kontext der Standardnormalverteilung für statistische Analysen verwenden (z.B. für Hypothesentests oder Konfidenzintervalle), müssen bestimmte Bedingungen erfüllt sein.

Die z-Verteilung setzt voraus, dass die zugrunde liegende Grundgesamtheit normalverteilt ist und dass der Mittelwert (μ) und die Standardabweichung (σ) der Grundgesamtheit bekannt sind.

Da in der Praxis aber selten die gesamte Grundgesamtheit vorhanden ist und auch Mittelwert und Standardabweichung meist nicht bekannt sind, ist diese Voraussetzung natürlich oft nicht erfüllt. Glücklicherweise gibt es aber noch eine alternative Voraussetzung.

Obwohl die z-Verteilung für normalverteilte Grundgesamtheiten definiert ist, kann der Zentrale Grenzwertsatz auf große Stichproben angewendet werden. Dieser Satz besagt, dass sich die Verteilung der Stichprobe einer Normalverteilung annähert, wenn der Stichprobenumfang größer als 30 ist.

Wenn also die Stichprobe größer als 30 ist, kann die Standardnormalverteilung als Annäherung verwendet werden und der Mittelwert und die Standardabweichung können mit Hilfe der Stichprobe geschätzt werden.

Wenn die Standardabweichung aus der Stichprobe geschätzt wird, schreibt man üblicherweise s anstelle von σ und für den Mittelwert x Strich anstelle von mu.

z-Standardisierung Stichprobe vs Grundgesamtheit

Die z-Standardisierung darf nicht mit dem z-Test oder dem t-Test verwechselt werden. Wenn du wissen möchtest, was der t-Test ist, kannst du dir das folgende Video ansehen.

Statistik leichtgemacht

Viele anschauliche Beispiele
Ideal für Prüfungen und Abschlussarbeiten
Statistik leichtgemacht auf 321 Seiten
4. überarbeitete Auflage (April 2024)
Nur 7,99 €

Leseprobe

"Super einfach geschrieben"

"Einfacher geht es nicht"

"Soviele hilfreiche Beispiele"

Fragebogen leichtgemacht

Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,

Viele anschauliche Beispiele
Ideal für die Abschlussarbeit
Fragebogen leichtgemacht auf 61 Seiten
3. überarbeitete Auflage (April 2024)
Nur 3,99 €

Leseprobe

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.

Leseprobe

Literatur

Statistik: Der Weg zur Datenanalyse.

Fahrmeir, L. Heumann, C. Künstler, R. Pigeot, I. & Tutz, G.

Zum Buch auf Amazon

Statistik für Human- und Sozialwissenschaftler: Limitierte Sonderausgabe.

Bortz, J. & Schuster, C.

Zum Buch auf Amazon

z-Standardisierung

Was ist die z-Standardisierung?

Beispiel z-Standardisierung

z-Wert berechnen

Verschiedene Datensätze vergleichen

Voraussetzungen

Statistik leichtgemacht

Fragebogen leichtgemacht

Statistik leichtgemacht

Endlich ohne Probleme Statistik verstehen.

Literatur

Statistik: Der Weg zur Datenanalyse.

Fahrmeir, L. Heumann, C. Künstler, R. Pigeot, I. & Tutz, G.

Statistik für Human- und Sozialwissenschaftler: Limitierte Sonderausgabe.

Bortz, J. & Schuster, C.

Fit fürs Studium – Statistik: Alle Grundlagen verständlich erklärt. Geeignet für Studiengänge mit statistischen Methoden: VWL, BWL, Informatik etc.

Grabinger B.

Multivariate Analysemethoden: Eine anwendungsorientierte Einführung.

Backhaus, K. Erichson, B. Plinke, P. & Weiber, R.

evaluiert: erweitertes Planungsbuch für Evaluationen im Bildungsbereich

Balzer, L. & Beywl, W.

Basiswissen Medizinische Statistik.

Weiß, C.

Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften.

Doring, N. & Bortz, J.