Systematische Stichprobe in Pandas (mit Beispielen)

Forscher entnehmen häufig Stichproben aus einer Population und verwenden die Daten aus der Stichprobe, um Rückschlüsse auf die Gesamtpopulation zu ziehen.

Eine häufig verwendete Probenahmemethode ist die systematische Probenahme, die mit einem einfachen zweistufigen Verfahren durchgeführt wird:

1. Ordnen Sie jedes Mitglied einer Population in einer bestimmten Reihenfolge.

2. Wählen Sie einen zufälligen Startpunkt und wählen Sie jedes n-te Mitglied aus, das in der Stichprobe enthalten sein soll.

In diesem Tutorial wird erklärt, wie Sie ein systematisches Sampling für einen Pandas DataFrame in Python durchführen.

Beispiel: Systematische Probenahme in Pandas

Angenommen, ein Lehrer möchte eine Stichprobe von 100 Schülern einer Schule mit insgesamt 500 Schülern erhalten. Sie wählt eine systematische Stichprobe, bei der sie jeden Schüler in alphabetischer Reihenfolge nach seinem Nachnamen sortiert, zufällig einen Startpunkt auswählt und jeden fünften Schüler für die Stichprobe auswählt.

Der folgende Code zeigt, wie Sie ein synthetisches Dataframe erstellen, mit dem Sie in Python arbeiten können:

import pandas as pd
import numpy as np
import string
import random

#Machen Sie dieses Beispiel reproduzierbar
np.random.seed(0)

#Erstellen Sie eine einfache Funktion, um zufällige Nachnamen zu generieren
def randomNames(size=6, chars=string.ascii_uppercase):
    return ''.join(random.choice(chars) for _ in range(size))

# Dataframe erstellen
df = pd.DataFrame({'last_name': [randomNames() for _ in range(500)],
                   'GPA': np.random.normal(loc=85, scale=3, size=500)})

# Die ersten sechs Zeilen des DataFrames anzeigen
df.head()

last_name   GPA
0   PXGPIV  86.667888
1   JKRRQI  87.677422
2   TRIZTC  83.733056
3   YHUGIN  85.314142
4   ZVUNVK  85.684160

Der folgende Code zeigt, wie Sie durch systematische Stichproben eine Stichprobe von 100 Schülern erhalten:

# Erhalten Sie eine systematische Stichprobe, indem Sie jede 5. Zeile auswählen
sys_sample_df = df.iloc[::5]

# Die ersten sechs Zeilen des DataFrames anzeigen
sys_sample_df.head()

   last_name      gpa
3      ORJFW 88.78065
8      RWPSB 81.96988
13     RACZU 79.21433
18     ZOHKA 80.47246
23     QJETK 87.09991
28     JTHWB 83.87300

# Abmessungen des Dataframes anzeigen
sys_sample_df.shape

(100, 2)

Beachten Sie, dass sich das erste in der Stichprobe enthaltene Element in der ersten Zeile des ursprünglichen Dataframes befand. Jedes nachfolgende Element in der Stichprobe befindet sich 5 Zeilen nach dem vorherigen Element.

Und wenn wir shape() verwenden, können wir sehen, dass die systematische Stichprobe, die wir erhalten haben, ein Dataframe mit 100 Zeilen und 2 Spalten ist.

Zusätzliche Ressourcen

Arten von Probenahmemethoden
Cluster-Sampling in Pandas
Geschichtete Probenahme in Pandas

Beispiel: Systematische Probenahme in Pandas

Zusätzliche Ressourcen

Statistik: Der Weg zur Datenanalyse

Cluster-Stichprobe in Pandas (mit Beispielen)

Stratifizierte Stichprobe in Pandas (mit Beispielen)