So berechnen Sie Z-Scores in R

Von Fabian
Kategorie: R
Lesezeit: 3 Minuten

In der Statistik gibt ein Z-Score an, wie viele Standardabweichungen ein Wert vom Mittelwert entfernt ist. Wir verwenden die folgende Formel, um einen Z-Score zu berechnen:

z = (X - μ) / σ

wo:

  • X ist ein einzelner Rohdatenwert
  • μ ist der Populationsmittelwert
  • σ ist die Populationsstandardabweichung

In diesem Tutorial wird erklärt, wie Z-Scores für Rohdatenwerte in R berechnet werden.

Beispiel 1: Finden Sie Z-Scores für einen einzelnen Vektor

Der folgende Code zeigt, wie der Z-Score für jeden Rohdatenwert in einem Vektor ermittelt wird:

#Vektor der Daten erstellen
data <- c(6, 7, 7, 12, 13, 13, 15, 16, 19, 22)

#Z-Score für jeden Datenwert finden
z_scores <- (data-mean(data))/sd(data)

#Z-Scores anzeigen
z_scores

[1] -1.3228757 -1.1338934 -1.1338934 -0.1889822  0.0000000  0.0000000
[7]  0.3779645  0.5669467  1.1338934  1.7008401

Jeder Z-Score gibt an, wie viele Standardabweichungen ein einzelner Wert vom Mittelwert entfernt ist. Beispielsweise:

  • Der erste Rohdatenwert von „6“ liegt 1,323 Standardabweichungen unter dem Mittelwert.
  • Der fünfte Rohdatenwert von „13“ ist 0 Standardabweichungen vom Mittelwert entfernt, d.h. er ist gleich dem Mittelwert.
  • Der letzte Rohdatenwert von „22“ liegt 1,701 Standardabweichungen über dem Mittelwert.

Beispiel 2: Suchen von Z-Scores für eine einzelne Spalte in einem DataFrame

Der folgende Code zeigt, wie der Z-Score für jeden Rohdatenwert in einer einzelnen Spalte eines Dataframes ermittelt wird:

#Dataframe erstellen
df <- data.frame(assists = c(4, 4, 6, 7, 9, 13),
                 points = c(24, 29, 13, 15, 19, 22),
                 rebounds = c(5, 5, 7, 8, 14, 15))

#Finden Sie den Z-Score für jeden Datenwert in der Spalte 'points'
z_scores <- (df$points-mean(df$points))/sd(df$points)

#Z-Scores anzeigen
z_scores

[1]  0.6191904  1.4635409 -1.2383807 -0.9006405 -0.2251601  0.2814502

Jeder Z-Score gibt an, wie viele Standardabweichungen ein einzelner Wert vom Mittelwert entfernt ist. Beispielsweise:

  • Der erste Rohdatenwert von „24“ liegt 0,619 Standardabweichungen über dem Mittelwert.
  • Der zweite Rohdatenwert von „29“ liegt 1,464 Standardabweichungen über dem Mittelwert.
  • Der dritte Rohdatenwert von „13“ liegt 1,238 Standardabweichungen unter dem Mittelwert.

Usw.

Beispiel 3: Finden Sie Z-Scores für jede Spalte in einem DataFrame

Der folgende Code zeigt, wie Sie mit der Funktion sapply() den Z-Score für jeden Rohdatenwert in jeder Spalte eines Dataframes ermitteln.

#Dataframe erstellen
df <- data.frame(assists = c(4, 4, 6, 7, 9, 13),
                 points = c(24, 29, 13, 15, 19, 22),
                 rebounds = c(5, 5, 7, 8, 14, 15))

#Z-Scores jeder Spalte finden
sapply(df, function(df) (df-mean(df))/sd(df))

         assists     points   rebounds
[1,] -0.92315712  0.6191904 -0.9035079
[2,] -0.92315712  1.4635409 -0.9035079
[3,] -0.34011052 -1.2383807 -0.4517540
[4,] -0.04858722 -0.9006405 -0.2258770
[5,]  0.53445939 -0.2251601  1.1293849
[6,]  1.70055260  0.2814502  1.3552619

Die Z-Scores für jeden einzelnen Wert werden relativ zu der Spalte angezeigt, in der sie sich befinden. Beispiel:

  • Der erste Wert von „4“ in der ersten Spalte liegt 0,923 Standardabweichungen unter dem Mittelwert der Spalte.
  • Der erste Wert von „24“ in der zweiten Spalte beträgt 0,619 Standardabweichungen über dem Mittelwert der Spalte.
  • Der erste Wert von „9“ in der dritten Spalte liegt bei 0,904 Standardabweichungen unter dem Mittelwert der Spalte.

Usw.

Weitere R-Tutorials finden Sie hier.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: