So berechnen Sie z-Werte in Python

Von Fabian
Kategorie: Python
Lesezeit: 4 Minuten

In der Statistik gibt ein z-Wert an, wie viele Standardabweichungen ein Wert vom Mittelwert entfernt ist. Wir verwenden die folgende Formel, um einen z-Wert zu berechnen:

z = (X – μ) / σ

wobei:

  • X ist ein einzelner Rohdatenwert
  • μ ist der Populationsmittelwert
  • σ ist die Populationsstandardabweichung

In diesem Tutorial wird erläutert, wie Sie z-Werte für Rohdatenwerte in Python berechnen.

So berechnen Sie z-Werte in Python

Wir können z-Werte in Python mit scipy.stats.zscore berechnen, das die folgende Syntax verwendet:

scipy.stats.zscore(a, axis=0, ddof=0, nan_policy=’propagate’)

wobei:

  • a: Ein Array-ähnliches Objekt, das Daten enthält
  • axis: Die Achse, entlang der die z-Werte berechnet werden. Standard ist 0.
  • ddof: Freiheitsgradkorrektur bei der Berechnung der Standardabweichung. Standard ist 0.
  • nan_policy: Umgang mit Eingaben, die nan enthalten. Standard ist propagate, was nan zurückgibt. ‚raise‘ löst einen Fehler aus und ‚omit‘ führt Berechnungen durch, bei denen nan-Werte ignoriert werden.

Die folgenden Beispiele veranschaulichen die Verwendung dieser Funktion zur Berechnung von z-Werte für eindimensionale Numpy-Arrays, mehrdimensionale Numpy-Arrays und Pandas DataFrames.

Numpy – eindimensionale Arrays

Schritt 1: Module importieren.

import andas as pd
import numpy as np
import scipy.stats as stats

Schritt 2: Erstellen Sie ein Array von Werten.

data = np.array([6, 7, 7, 12, 13, 13, 15, 16, 19, 22])

Schritt 3: Berechnen Sie die z-Werte für jeden Wert im Array.

stats.zscore(data)

[-1,394, -1,195, -1,195, -0,199, 0, 0, 0,398, 0,598, 1,195, 1,793]

Jeder z-Wert gibt an, wie viele Standardabweichungen ein einzelner Wert vom Mittelwert entfernt ist. Beispielsweise:

  • Der erste Wert von „6“ im Array liegt 1,394 Standardabweichungen unter dem Mittelwert.
  • Der fünfte Wert von „13“ im Array ist 0 Standardabweichungen vom Mittelwert entfernt, d.h. er ist gleich dem Mittelwert.
  • Der letzte Wert von „22“ im Array liegt 1,793 Standardabweichungen über dem Mittelwert.

Numpy – mehrdimensionale Arrays

Wenn wir ein mehrdimensionales Array haben, können wir den Parameter Achse (axis) verwenden, um anzugeben, dass jeder z-Wert relativ zu seinem eigenen Array berechnet werden soll. Angenommen, wir haben das folgende mehrdimensionale Array:

data = np.array([[5, 6, 7, 7, 8],
                 [8, 8, 8, 9, 9],
                 [2, 2, 4, 4, 5]])

Wir können die folgende Syntax verwenden, um die z-Werte für jedes Array zu berechnen:

stats.zscore(data, axis=1)
[[-1,569 -0,588 0,392 0,392 1,373]
[-0,816 -0,816 -0,816 1,225 1,225]
[-1,167 -1,167 0,5 0,5 1,333]]

Die z-Werte für jeden einzelnen Wert werden relativ zu dem Array angezeigt, in dem sie sich befinden. Beispiel:

  • Der erste Wert von „5“ im ersten Array liegt 1,159 Standardabweichungen unter dem Mittelwert seines Arrays.
  • Der erste Wert von „8“ im zweiten Array liegt bei 0,816 Standardabweichungen unter dem Mittelwert des Arrays.
  • Der erste Wert von „2“ im dritten Array liegt 1,167 Standardabweichungen unter dem Mittelwert seines Arrays.

Pandas DataFrames

Angenommen, wir haben stattdessen ein Pandas DataFrame:

data = pd.DataFrame(np.random.randint(0, 10, size=(5, 3)), columns=['A', 'B', 'C'])
data

  A B C
0 8 0 9
1 4 0 7
2 9 6 8
3 1 8 1
4 8 0 8

Mit der apply-Funktion können wir den z-Wert einzelner Werte nach Spalten berechnen:

data.apply(stats.zscore)
          A         B         C
0  0.659380 -0.802955  0.836080
1 -0.659380 -0.802955  0.139347
2  0.989071  0.917663  0.487713
3 -1.648451  1.491202 -1.950852
4  0.659380 -0.802955  0.487713

Die z-Werte für jeden einzelnen Wert werden relativ zu der Spalte angezeigt, in der sie sich befinden. Beispiel:

  • Der erste Wert von „8“ in der ersten Spalte beträgt 0,659 Standardabweichungen über dem Mittelwert der Spalte.
  • Der erste Wert von „0“ in der zweiten Spalte liegt bei 0,803 Standardabweichungen unter dem Mittelwert der Spalte.
  • Der erste Wert von „9“ in der dritten Spalte beträgt 0,836 Standardabweichungen über dem Mittelwert der Spalte.

Zusätzliche Ressourcen:

So berechnen Sie z-Werte in Excel
So berechnen Sie z-Werte in SPSS
So berechnen Sie z-Werte auf einem TI-84-Rechner

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: