z-Standardisierung
n diesem Tutorial beschäftigen wir uns mit der Z-Standardisierung (auch Z-Transformation genannt). Wir erklären, was der Z-Wert ist, wie die Z-Standardisierung funktioniert und was unter einer Standardnormalverteilung zu verstehen ist. Darüber hinaus erläutern wir, was eine Z-Wert-Tabelle ist und wofür sie verwendet wird.
Was ist die z-Standardisierung?
Die Z-Standardisierung ist ein statistisches Verfahren, das verwendet wird, um Datenpunkte aus verschiedenen Datensätzen vergleichbar zu machen. Dabei wird jeder Datenpunkt in einen Z-Wert (z-Score) umgewandelt. Der Z-Wert zeigt an, wie viele Standardabweichungen ein Datenpunkt vom Mittelwert des Datensatzes entfernt liegt.
Beispiel z-Standardisierung
Stell dir vor, du bist Arzt oder Ärztin und möchtest den Blutdruck deiner Patienten genauer untersuchen. Dazu hast du bei einer Stichprobe von 40 Patienten den Blutdruck gemessen. Aus diesen Messwerten kannst du nun den Mittelwert berechnen, also den durchschnittlichen Blutdruckwert der 40 Patienten.
Nun fragt dich einer der Patienten, wie sein Blutdruck im Vergleich zu den anderen Patienten einzuschätzen ist. Du teilst ihm mit, dass sein Blutdruck 10 mmHg über dem Durchschnitt liegt. Jetzt stellt sich die Frage, ob 10 mmHg als viel oder wenig einzustufen ist.
Wenn die Blutdruckwerte der anderen Patienten sehr nah am Mittelwert liegen, dann sind 10 mmHg im Verhältnis zur Streuung viel. Streuen die Blutdruckwerte jedoch weit um den Mittelwert, dann sind 10 mmHg möglicherweise nicht so bedeutend.
Wie stark die Daten streuen, sagt uns die Standardabweichung. Wenn die Daten nahe am Mittelwert liegen, haben wir eine kleine Standardabweichung, wenn sie stark streuen, haben wir eine große Standardabweichung.
Sagen wir, für unsere Daten erhalten wir eine Standardabweichung von 20 mmhg. Das heißt, dass im quadratischen Mittel die Patienten um 20 vom Mittelwert abweichen.
Der z-Wert sagt uns nun, wie weit eine Person in Einheiten der Standardabweichung vom Mittelwert entfernt ist. Also eine Person, die eine Standardabweichung vom Mittelwert abweicht, hat einen z-Wert von 1, eine Person, die doppelt so weit vom Mittelwert abweicht, hat einen z-Wert von 2 und eine Person, die drei Standardabweichungen vom Mittelwert abweicht, hat einen z-Wert von 3.
Dementsprechend hat eine Person, die um minus eine Standardabweichung abweicht, einen z-Wert von -1, eine Person, die um minus zwei Standardabweichungen abweicht, einen z-Wert von minus 2 und eine Person, die um minus drei Standardabweichungen abweicht, einen z-Wert von minus 3.
Und wenn eine Person genau den Wert des Mittelwertes hat, dann weicht sie natürlich um null Standardabweichung vom Mittelwert ab und erhält den Wert null.
Der z-Wert gibt also an, wie viele Standardabweichungen ein Messwert vom Mittelwert entfernt ist. Wie bereits erwähnt, ist die Standardabweichung nur ein Maß für die Streuung des Blutdrucks der Patienten um den Mittelwert.
Kurz gesagt, der z-Wert hilft uns zu verstehen, wie außergewöhnlich oder normal ein bestimmter Messwert im Vergleich zum Gesamtdurchschnitt ist.
z-Wert berechnen
Wie berechnen wir den z-Wert? Wir wollen die Ausgangsdaten, in unserem Fall den Blutdruck, irgendwie in z-Werte umrechnen, also eine z-Standardisierung durchführen.
Hier sehen wir die Formel für die z-Standardisierung. Hier ist z jener z-Wert, den wir berechnen wollen, x ist der beobachtete Wert, in unserem Fall der Blutdruck der betreffenden Person, μ ist der Mittelwert der Stichprobe, in unserem Fall also der Mittelwert aller 40 Patienten, und σ ist die Standardabweichung der Stichprobe, also die Standardabweichung unserer 40 Patienten.
Achtung: Eigentlich sind μ und σ der Mittelwert und die Standardabweichung der Grundgesamtheit. In unserem Fall haben wir aber nur eine Stichprobe. Unter bestimmten Voraussetzungen, auf die wir später noch eingehen werden, können wir jedoch den Mittelwert und die Standardabweichung mit Hilfe der Stichprobe schätzen.
Angenommen, in unserem Beispiel haben die 40 Patienten einen Mittelwert von 130 und eine Standardabweichung von 20. Wenn wir beide Werte einsetzen, erhalten wir für z: x-130 geteilt durch 20
Nun können wir den Blutdruck von jedem einzelnen Patienten für x einsetzen und uns den z Wert berechnen. Machen wir das einfach mal für den ersten Patienten. Nehmen wir an, dieser Patient hat einen Blutdruck von 97, dann setzen wir einfach 97 für x ein und erhalten damit einen z-Wert von -1,65.
Diese Person weicht also um -1,65 Standardabweichungen vom Mittelwert ab. Das können wir jetzt für alle Patienten machen.
Unabhängig von der Einheit der Ausgangsdaten haben wir jetzt eine Übersicht, in der wir sehen können, wie weit eine Person vom Mittelwert in Einheiten der Standardabweichung abweicht.
Jetzt haben wir natürlich nur eine Stichprobe, die aus einer bestimmten Grundgesamtheit stammt. Aber wenn die Daten normalverteilt sind und die Stichprobengröße größer als 30 ist, dann können wir mit Hilfe des z-Wertes sagen, wie viel Prozent der Patienten einen niedrigeren Blutdruck als z.B. 110 haben und wie viel Prozent einen höheren Blutdruck als 110 haben.
Aber wie geht das? Wenn die Ausgangsdaten normalverteilt sind, erhalten wir durch die z-Standardisierung eine sogenannte Standardnormalverteilung.
Die Standardnormalverteilung ist eine bestimmte Art der Normalverteilung mit einem Mittelwert von 0 und einer Standardabweichung von 1.
Die Besonderheit besteht darin, dass jede Normalverteilung, unabhängig von ihrem Mittelwert oder ihrer Standardabweichung, in eine Standardnormalverteilung umgewandelt werden kann.
Da wir nun eine standardisierte Verteilung haben, brauchen wir eigentlich nur noch eine Tabelle, die uns für möglichst viele z-Werte sagt, wie viel Prozent der Werte unter diesem Wert liegen.
Und eine solche Tabelle findest du in fast jedem Statistik Buch oder hier: Tabelle der z-Verteilung. Jetzt ist natürlich die Frage, wie man diese Tabelle liest?
Wenn wir z.B. einen z-Wert von -2 haben, dann können wir aus dieser Tabelle einen Wert von 0,0228 ablesen.
Das bedeutet, dass 2,28% der Werte kleiner als ein z-Wert von -2 sind. Da die Summe immer 10% oder 1 beträgt, sind 97,72 % der Werte größer.
Bei einem z-Wert von Null liegen wir genau in der Mitte und erhalten einen Wert von 0,5. Dies bedeutet, dass 50% der Werte kleiner als ein z-Wert von 0 und 50% der Werte größer als 0 sind. Da die Normalverteilung symmetrisch ist, können wir die Wahrscheinlichkeiten für positive z-Werte genau ablesen.
Wenn wir einen z-Wert von 1 haben, brauchen wir nur nach -1 zu suchen. Wir müssen jedoch beachten, dass wir in diesem Fall einen Wert erhalten, der uns sagt, wie viel Prozent der Werte größer als der z-Wert sind. Bei einem z-Wert von 1 sind also 15,81% der Werte größer und 84,14% der Werte kleiner.
Was aber, wenn wir z.B. aus der Tabelle einen z-Wert von -1,81 ablesen wollen? Dazu brauchen wir die anderen Spalten. Einen z-Wert von -1,81 können wir bei -1,8 und bei 0,01 ablesen.
Nun schauen wir uns das Ganze noch einmal für einen Blutdruckwert an. Wenn wir z.B. wissen wollen, wie viel Prozent der Patienten einen Blutdruck unter 123 haben, können wir mit Hilfe der z-Standardisierung einen Blutdruck von 123 in einen z-Wert umrechnen. In diesem Fall erhalten wir einen z-Wert von -0,35.
Nun können wir die Tabelle mit den z-Verteilungen nehmen und nach einem z-Wert von -0,35 suchen. Hier haben wir einen Wert von 0,3632. Also 36,32 Prozent der Werte sind kleiner als ein z-Wert von -0,35 und 63,68 Prozent sind größer.
Verschiedene Datensätze vergleichen
Es gibt aber noch einen wichtigen Anwendungsfall für die z-Standardisierung. Die z-Standardisierung kann helfen, auf unterschiedliche Weise gemessene Werte vergleichbar zu machen. Hier ein Beispiel.
Angenommen, wir haben zwei Klassen, Klasse A und Klasse B, die einen unterschiedlichen Test in Mathematik geschrieben haben.
Die Tests sind unterschiedlich gestaltet, haben einen unterschiedlichen Schwierigkeitsgrad und eine unterschiedliche maximale Punktzahl.
Um die Leistungen der Schüler der beiden Klassen fair vergleichen zu können, können wir die Z-Standardisierung anwenden.
Die durchschnittliche Punktzahl bzw. der Mittelwert der Klasse A betrug 70 Punkte mit einer Standardabweichung von 10 Punkten. Die durchschnittliche Punktzahl für den Test in Klasse B betrug 140 Punkte mit einer Standardabweichung von 20 Punkten.
Wir wollen nun die Leistung von Max aus der Klasse A, der 80 Punkte erreicht hat, mit der Leistung von Emma aus der Klasse B, die 160 Punkte erreicht hat, vergleichen.
Hierfür berechnen wir den z-Wert von Max und Emma. Wir tragen für x einmal 80 ein und erhalten einen z-Wert von 1. Und wir tragen 160 für x ein und erhalten ebenfalls einen z-Wert von 1.
Die z-Werte von Max und Emma sind also gleich. Das bedeutet, dass beide Schulkinder in Bezug auf die durchschnittliche Leistung und die Streuung in ihrer jeweiligen Klasse gleich gut abgeschnitten haben. Beide liegen genau eine Standardabweichung über dem Mittelwert ihrer Klasse.
Voraussetzungen
Aber was ist mit den Voraussetzungen? Können wir einfach eine z-Standardisierung berechnen und die Tabelle der Standardnormalverteilung verwenden?
Die z-Standardisierung selbst, d.h. die Umrechnung der Datenpunkte in z-Werte mit Hilfe dieser Formel, unterliegt im Wesentlichen keinen strengen Voraussetzungen. Sie kann unabhängig von der Datenverteilung durchgeführt werden.
Wenn wir jedoch die resultierenden z-Werte im Kontext der Standardnormalverteilung für statistische Analysen verwenden (z.B. für Hypothesentests oder Konfidenzintervalle), müssen bestimmte Bedingungen erfüllt sein.
Die z-Verteilung setzt voraus, dass die zugrunde liegende Grundgesamtheit normalverteilt ist und dass der Mittelwert (μ) und die Standardabweichung (σ) der Grundgesamtheit bekannt sind.
Da in der Praxis aber selten die gesamte Grundgesamtheit vorhanden ist und auch Mittelwert und Standardabweichung meist nicht bekannt sind, ist diese Voraussetzung natürlich oft nicht erfüllt. Glücklicherweise gibt es aber noch eine alternative Voraussetzung.
Obwohl die z-Verteilung für normalverteilte Grundgesamtheiten definiert ist, kann der Zentrale Grenzwertsatz auf große Stichproben angewendet werden. Dieser Satz besagt, dass sich die Verteilung der Stichprobe einer Normalverteilung annähert, wenn der Stichprobenumfang größer als 30 ist.
Wenn also die Stichprobe größer als 30 ist, kann die Standardnormalverteilung als Annäherung verwendet werden und der Mittelwert und die Standardabweichung können mit Hilfe der Stichprobe geschätzt werden.
Wenn die Standardabweichung aus der Stichprobe geschätzt wird, schreibt man üblicherweise s anstelle von σ und für den Mittelwert x Strich anstelle von mu.
Die z-Standardisierung darf nicht mit dem z-Test oder dem t-Test verwechselt werden. Wenn du wissen möchtest, was der t-Test ist, kannst du dir das folgende Video ansehen.
Statistik leichtgemacht
- Viele anschauliche Beispiele
- Ideal für Prüfungen und Abschlussarbeiten
- Statistik leichtgemacht auf 321 Seiten
- 4. überarbeitete Auflage (April 2024)
- Nur 7,99 €
"Super einfach geschrieben"
"Einfacher geht es nicht"
"Soviele hilfreiche Beispiele"
Fragebogen leichtgemacht
Dieses e-Buch gibt dir die wichtigsten Informationen die du für die Erstellung deines Fragebogens brauchst,
- Viele anschauliche Beispiele
- Ideal für die Abschlussarbeit
- Fragebogen leichtgemacht auf 61 Seiten
- 3. überarbeitete Auflage (April 2024)
- Nur 3,99 €
Statistik leichtgemacht
Endlich ohne Probleme Statistik verstehen.
Mit diesem e-Book verstehst du mit vielen Bilder und einfachen Text die Grundlagen der Statistik.