In diesem Tutorial wird die Berechnung der Standardabweichung in R erläutert, einschließlich einer Erläuterung der verwendeten Formel sowie mehrerer Beispiele.

Was ist Standardabweichung?

Die Standardabweichung ist eine gängige Methode, um zu messen, wie weit die Werte in einem Datensatz verteilt sind. Die Formel zum Ermitteln der Standardabweichung einer Stichprobe lautet:

√ Σ (x i – μ) 2 / (n-1)

Dabei ist Σ ein ausgefallenes Symbol, das „Summe“ bedeutet, x i ist der i-te Wert im Datensatz, μ ist der Mittelwert des Datensatzes und n ist die Stichprobengröße.

Berechnen der Standardabweichung in R

Mit der integrierten Funktion sd() können wir die Standardabweichung einer Stichprobe in R einfach berechnen.

Der folgende Code veranschaulicht beispielsweise, wie die Standardabweichung eines Beispiels ermittelt wird:

#Datensatz erstellen
data <- c(1, 3, 4, 6, 11, 14, 17, 20, 22, 23)
#Standardabweichung finden
sd(data)
# [1] 8.279157

Beachten Sie, dass die Standardabweichung der Quadratwurzel der Varianz entspricht:

sqrt(var(data))
# [1] 8.279157
 Erstellen Sie eine benutzerdefinierte Funktion, um die Standardabweichung zu ermitteln
find_sd <- function(x) {
  sqrt(sum((x-mean(x))^2/(length(x)-1)))
}

#Standardabweichung finden
find_sd(data)
# [1] 8.279157

Beachten Sie auch, dass wir na.rm = TRUE angeben müssen, wenn wir die Standardabweichung der Stichprobe eines Datensatzes berechnen möchten und fehlende Werte vorhanden sind:

#Vektor der Werte mit NA erstellen
data_NA <- c(1, NA, 4, 6, NA, 14, 17, 20, 22, 23)
#Ein Versuch, Standardabweichung zu finden
sd(data_NA)
# [1] NA

#Finden Sie die Standardabweichung, indem Sie fehlende Werte ausschließen
sd(data_NA, na.rm = TRUE)
# [1] 8.61788

So berechnen Sie mehrere Standardabweichungen in R gleichzeitig

In den vorherigen Beispielen haben wir gezeigt, wie die Standardabweichung für einen einzelnen Wertevektor ermittelt wird. Wir können jedoch auch die Funktion sd() verwenden, um die Standardabweichung einer oder mehrerer Variablen in einem Datensatz zu ermitteln.

Betrachten Sie beispielsweise das integrierte R-Dataset mtcars:

#Die ersten sechs Zeilen des MTCAR-Datensatzes anzeigen
head(mtcars)
#                   mpg cyl disp  hp drat    wt  qsec vs am gear carb
#Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
#Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
#Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
#Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
#Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
#Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

Um die Standardabweichung der Variable mpg zu ermitteln, können wir den folgenden Code verwenden:

 # Standardabweichung von mpg finden
sd(mtcars$mpg)
# [1] 6.026948

Mit der Funktion apply() können wir auch die Standardabweichung mehrerer Variablen gleichzeitig ermitteln. Der folgende Code veranschaulicht beispielsweise, wie die Standardabweichung der Variablen mpg, cyl und wt auf einmal ermittelt wird:

 #find Standardabweichung von mpg, cyl, und wt
apply(mtcars[ , c('mpg', 'cyl', 'wt')], 2, sd)

Und wir können die Standardabweichung jeder einzelnen Variablen im Datensatz mithilfe des folgenden Codes ermitteln:

#Standardabweichung aller Variablen finden
apply(mtcars, 2, sd)
#        mpg         cyl        disp          hp        drat          wt 
#  6.0269481   1.7859216 123.9386938  68.5628685   0.5346787   0.9784574 
#       qsec          vs          am        gear        carb 
#  1.7869432   0.5040161   0.4989909   0.7378041   1.6152000 
Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: