Die Varianz ist ein Weg, um zu messen, wie verteilt die Datenwerte um den Mittelwert liegen.

Die Formel zum Ermitteln der Varianz einer Population lautet:

σ 2 = Σ (x i - μ) 2 / N.

Dabei ist μ der Populationsmittelwert, x i das i-te Element aus der Population, N die Populationsgröße und Σ nur ein ausgefallenes Symbol, das „Summe“ bedeutet.

Die Formel zum Ermitteln der Varianz einer Stichprobe lautet:

s 2 = Σ (x i - x ) 2 / (n - 1)

Dabei ist x der Stichprobenmittelwert, x i das i-te Element in der Stichprobe und n die Stichprobengröße.

Beispiel: Berechnen Sie die Stichproben- und Populationsvarianz in R

Angenommen, wir haben den folgenden Datensatz in R:

#Datensatz definieren
data <- c(2, 4, 4, 7, 8, 12, 14, 15, 19, 22)

Wir können die Stichprobenvarianz mithilfe der Funktion var() in R berechnen:

#Stichprobenvarianz berechnen
var(data)

[1] 46.01111

Und wir können die Populationsvarianz berechnen, indem wir einfach die Stichprobenvarianz mit (n-1) / n wie folgt multiplizieren:

#Bestimmen Sie die Länge der Daten
n <- length(data)

#Populationsvarianz berechnen
var(data) * (n-1)/n

[1] 41.41

Beachten Sie, dass die Populationsvarianz immer kleiner als die Stichprobenvarianz ist.

In der Praxis berechnen wir normalerweise Stichprobenvarianzen für Datensätze, da es ungewöhnlich ist, Daten für eine gesamte Population zu erfassen.

Beispiel: Berechnen Sie die Stichprobenvarianz mehrerer Spalten

Angenommen, wir haben das folgende Dataframe in R:

#Dataframe erstellen
data <- data.frame(a=c(1, 3, 4, 4, 6, 7, 8, 12),
                   b=c(2, 4, 4, 5, 5, 6, 7, 16),
                   c=c(6, 6, 7, 8, 8, 9, 9, 12))

#Dataframe anzeigen
data

   a  b  c
1  1  2  6
2  3  4  6
3  4  4  7
4  4  5  8
5  6  5  8
6  7  6  9
7  8  7  9
8 12 16 12

Mit der Funktion sapply() können wir die Stichprobenvarianz jeder Spalte im Dataframe berechnen:

#Stichprobenvarianz jeder Spalte finden
sapply(data, var)

        a         b         c 
11.696429 18.125000  3.839286 

Und wir können den folgenden Code verwenden, um die Standardabweichung der Stichprobe für jede Spalte zu berechnen, die einfach die Quadratwurzel der Stichprobenvarianz ist:

#Finden Sie die Standardabweichung der Stichprobe für jede Spalte
sapply(data, sd)

       a        b        c 
3.420004 4.257347 1.959410 

Weitere R-Tutorials finden Sie hier.

Statistik in Excel leicht gemacht

"Statistik in Excel leicht gemacht" ist eine Sammlung von 16 Excel-Tabellen, die integrierte Formeln enthalten, um die wichtigsten statistischen Tests und Funktionen durchzuführen.

Statistik in Excel leicht gemacht

Das könnte Sie auch interessieren:
R

So finden Sie den Antilog der Werte in R

Der Antilog einer Zahl ist der Kehrwert des Logarithmus einer Zahl.

Wenn man also den Logarithmus einer Zahl berechnet, kann man den Antilogarithmus verwenden, um die ursprüngliche Zahl zurückzubekommen.

Angenommen …