So wählen Sie Zufallsstichproben in R aus (mit Beispielen)

Um eine Zufallsstichprobe in R auszuwählen, können wir die Funktion sample() verwenden, die die folgende Syntax verwendet:

sample(x, size, replace = FALSE, prob = NULL)

wo:

x: Ein Vektor von Elementen, aus denen Sie auswählen können.
size: Stichprobengröße.
replace: Ob mit Zurücklegen probiert werden soll oder nicht. Standard ist FALSE.
prob: Vektor der Wahrscheinlichkeitsgewichte zum Erhalten von Elementen aus dem Vektor. Standard ist NULL.

In diesem Tutorial wird erläutert, wie Sie mit dieser Funktion eine Zufallsstichprobe in R sowohl aus einem Vektor als auch aus einem Dataframe auswählen.

Beispiel 1: Zufallsstichprobe aus einem Vektor

Der folgende Code zeigt, wie eine Zufallsstichprobe ersatzlos aus einem Vektor ausgewählt wird:

#Vektor der Daten erstellen
data <- c(1, 3, 5, 6, 7, 8, 10, 11, 12, 14)

#Wählen Sie eine zufällige Stichprobe von 5 Elementen ohne Zurücklegen
sample(x=data, size=5)

[1] 10 12  5 14  7

Der folgende Code zeigt, wie Sie eine Zufallsstichprobe aus einem Vektor mit Zurücklegen auswählen:

#Vektor der Daten erstellen
data <- c(1, 3, 5, 6, 7, 8, 10, 11, 12, 14)

#Wählen Sie eine zufällige Stichprobe von 5 Elementen mit Zurücklegen
sample(x=data, size=5, replace=TRUE)

[1] 12  1  1  6 14

Beispiel 2: Zufallsstichprobe aus einem Dataframe

Der folgende Code zeigt, wie eine Zufallsstichprobe aus einem Dataframe ausgewählt wird:

#Dataframe erstellen
df <- data.frame(x=c(3, 5, 6, 6, 8, 12, 14),
                 y=c(12, 6, 4, 23, 25, 8, 9),
                 z=c(2, 7, 8, 8, 15, 17, 29))

#Dataframe anzeigen 
df

   x  y  z
1  3 12  2
2  5  6  7
3  6  4  8
4  6 23  8
5  8 25 15
6 12  8 17
7 14  9 29

#Wählen Sie eine Zufallsstichprobe aus drei Zeilen aus dem Dataframe
rand_df <- df[sample(nrow(df), size=3), ]

#zufällig ausgewählte Zeilen anzeigen
rand_df

   x  y  z
4  6 23  8
7 14  9 29
1  3 12  2

Folgendes passiert in diesem Code:

1. Um eine Teilmenge eines Dataframes in R auszuwählen, verwenden wir die folgende Syntax: df [Zeilen, Spalten]

2. Im obigen Code wählen wir zufällig eine Stichprobe von 3 Zeilen aus dem Dataframe und allen Spalten aus.

3. Das Endergebnis ist eine Teilmenge des Dataframes mit 3 zufällig ausgewählten Zeilen.

Es ist wichtig zu beachten, dass R jedes Mal, wenn wir die Funktion sample() verwenden, eine andere Stichprobe auswählt, da die Funktion zufällig Werte auswählt.

Verwenden Sie set.seed(Zahl) , um die Ergebnisse einer Analyse zu replizieren, damit die Funktion sample() jedes Mal dieselbe Zufallsstichprobe auswählt. Zum Beispiel:

#Machen Sie dieses Beispiel reproduzierbar
set.seed(23)

#Dataframe erstellen
df <- data.frame(x=c(3, 5, 6, 6, 8, 12, 14),
                 y=c(12, 6, 4, 23, 25, 8, 9),
                 z=c(2, 7, 8, 8, 15, 17, 29))

#Wählen Sie eine Zufallsstichprobe aus drei Zeilen aus dem Dataframe
rand_df <- df[sample(nrow(df), size=3), ]

#zufällig ausgewählte Zeilen anzeigen
rand_df

   x  y  z
5  8 25 15
2  5  6  7
6 12  8 17

Jedes Mal, wenn Sie den obigen Code ausführen, werden jedes Mal dieselben 3 Zeilen des Dataframes ausgewählt.

Zusätzliche Ressourcen

Geschichtete Stichprobe in R (mit Beispielen)
Systematische Stichprobennahme in R (mit Beispielen)
Cluster-Sampling in R (mit Beispielen)

Beispiel 1: Zufallsstichprobe aus einem Vektor

Beispiel 2: Zufallsstichprobe aus einem Dataframe

Zusätzliche Ressourcen

Statistik: Der Weg zur Datenanalyse

So verketten Sie Arrays in Python (mit Beispielen)

So führen Sie eine COUNTIF-Funktion in Python aus