Forscher entnehmen häufig Stichproben aus einer Population und verwenden die Daten aus der Stichprobe, um Rückschlüsse auf die Gesamtpopulation zu ziehen.
Eine häufig verwendete Stichprobenmethode ist die Cluster-Stichprobe, bei der …
Forscher entnehmen häufig Stichproben aus einer Population und verwenden die Daten aus der Stichprobe, um Rückschlüsse auf die Gesamtpopulation zu ziehen.
Eine häufig verwendete Probenahmemethode ist die systematische Probenahme, die mit einem einfachen zweistufigen Verfahren durchgeführt wird:
1. Ordnen Sie jedes Mitglied einer Population in einer bestimmten Reihenfolge.
2. Wählen Sie einen zufälligen Startpunkt und wählen Sie jedes n-te Mitglied aus, das in der Stichprobe enthalten sein soll.
In diesem Tutorial wird erklärt, wie Sie ein systematisches Sampling für einen Pandas DataFrame in Python durchführen.
Angenommen, ein Lehrer möchte eine Stichprobe von 100 Schülern einer Schule mit insgesamt 500 Schülern erhalten. Sie wählt eine systematische Stichprobe, bei der sie jeden Schüler in alphabetischer Reihenfolge nach seinem Nachnamen sortiert, zufällig einen Startpunkt auswählt und jeden fünften Schüler für die Stichprobe auswählt.
Der folgende Code zeigt, wie Sie ein synthetisches Dataframe erstellen, mit dem Sie in Python arbeiten können:
import pandas as pd
import numpy as np
import string
import random
#Machen Sie dieses Beispiel reproduzierbar
np.random.seed(0)
#Erstellen Sie eine einfache Funktion, um zufällige Nachnamen zu generieren
def randomNames(size=6, chars=string.ascii_uppercase):
return ''.join(random.choice(chars) for _ in range(size))
# Dataframe erstellen
df = pd.DataFrame({'last_name': [randomNames() for _ in range(500)],
'GPA': np.random.normal(loc=85, scale=3, size=500)})
# Die ersten sechs Zeilen des DataFrames anzeigen
df.head()
last_name GPA
0 PXGPIV 86.667888
1 JKRRQI 87.677422
2 TRIZTC 83.733056
3 YHUGIN 85.314142
4 ZVUNVK 85.684160
Der folgende Code zeigt, wie Sie durch systematische Stichproben eine Stichprobe von 100 Schülern erhalten:
# Erhalten Sie eine systematische Stichprobe, indem Sie jede 5. Zeile auswählen
sys_sample_df = df.iloc[::5]
# Die ersten sechs Zeilen des DataFrames anzeigen
sys_sample_df.head()
last_name gpa
3 ORJFW 88.78065
8 RWPSB 81.96988
13 RACZU 79.21433
18 ZOHKA 80.47246
23 QJETK 87.09991
28 JTHWB 83.87300
# Abmessungen des Dataframes anzeigen
sys_sample_df.shape
(100, 2)
Beachten Sie, dass sich das erste in der Stichprobe enthaltene Element in der ersten Zeile des ursprünglichen Dataframes befand. Jedes nachfolgende Element in der Stichprobe befindet sich 5 Zeilen nach dem vorherigen Element.
Und wenn wir shape() verwenden, können wir sehen, dass die systematische Stichprobe, die wir erhalten haben, ein Dataframe mit 100 Zeilen und 2 Spalten ist.
Arten von Probenahmemethoden
Cluster-Sampling in Pandas
Geschichtete Probenahme in Pandas
Forscher entnehmen häufig Stichproben aus einer Population und verwenden die Daten aus der Stichprobe, um Rückschlüsse auf die Gesamtpopulation zu ziehen.
Eine häufig verwendete Stichprobenmethode ist die Cluster-Stichprobe, bei der …
Forscher entnehmen häufig Stichproben aus einer Population und verwenden die Daten aus der Stichprobe, um Rückschlüsse auf die Gesamtpopulation zu ziehen.
Eine häufig verwendete Stichprobenmethode ist die stratifizierte Zufallsstichprobe, bei …