Die Varianz ist ein Weg, um zu messen, wie verteilt die Datenwerte um den Mittelwert liegen.

Die Formel zum Ermitteln der Varianz einer Population lautet:

σ 2 = Σ (x i - μ) 2 / N.

Dabei ist μ der Populationsmittelwert, x i das i-te Element aus der Population, N die Populationsgröße und Σ nur ein ausgefallenes Symbol, das „Summe“ bedeutet.

Die Formel zum Ermitteln der Varianz einer Stichprobe lautet:

s 2 = Σ (x i - x ) 2 / (n - 1)

Dabei ist x der Stichprobenmittelwert, x i das i-te Element in der Stichprobe und n die Stichprobengröße.

Beispiel: Berechnen Sie die Stichproben- und Populationsvarianz in R

Angenommen, wir haben den folgenden Datensatz in R:

#Datensatz definieren
data <- c(2, 4, 4, 7, 8, 12, 14, 15, 19, 22)

Wir können die Stichprobenvarianz mithilfe der Funktion var() in R berechnen:

#Stichprobenvarianz berechnen
var(data)

[1] 46.01111

Und wir können die Populationsvarianz berechnen, indem wir einfach die Stichprobenvarianz mit (n-1) / n wie folgt multiplizieren:

#Bestimmen Sie die Länge der Daten
n <- length(data)

#Populationsvarianz berechnen
var(data) * (n-1)/n

[1] 41.41

Beachten Sie, dass die Populationsvarianz immer kleiner als die Stichprobenvarianz ist.

In der Praxis berechnen wir normalerweise Stichprobenvarianzen für Datensätze, da es ungewöhnlich ist, Daten für eine gesamte Population zu erfassen.

Beispiel: Berechnen Sie die Stichprobenvarianz mehrerer Spalten

Angenommen, wir haben das folgende Dataframe in R:

#Dataframe erstellen
data <- data.frame(a=c(1, 3, 4, 4, 6, 7, 8, 12),
                   b=c(2, 4, 4, 5, 5, 6, 7, 16),
                   c=c(6, 6, 7, 8, 8, 9, 9, 12))

#Dataframe anzeigen
data

   a  b  c
1  1  2  6
2  3  4  6
3  4  4  7
4  4  5  8
5  6  5  8
6  7  6  9
7  8  7  9
8 12 16 12

Mit der Funktion sapply() können wir die Stichprobenvarianz jeder Spalte im Dataframe berechnen:

#Stichprobenvarianz jeder Spalte finden
sapply(data, var)

        a         b         c 
11.696429 18.125000  3.839286 

Und wir können den folgenden Code verwenden, um die Standardabweichung der Stichprobe für jede Spalte zu berechnen, die einfach die Quadratwurzel der Stichprobenvarianz ist:

#Finden Sie die Standardabweichung der Stichprobe für jede Spalte
sapply(data, sd)

       a        b        c 
3.420004 4.257347 1.959410 

Weitere R-Tutorials finden Sie hier.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: