Zwei der häufigsten Aufgaben, die Sie bei der Datenanalyse ausführen, sind das Gruppieren und Zusammenfassen von Daten. Glücklicherweise können Sie mit dem dplyr-Paket in R Daten schnell gruppieren und zusammenfassen.

Dieses Tutorial bietet eine Kurzanleitung für den Einstieg in dplyr.

Installieren und laden Sie das dplyr-Paket

Bevor Sie die Funktionen im dplyr-Paket verwenden können, müssen Sie zuerst das Paket laden:

#installieren von dplyr (falls nicht bereits installiert)
install.packages('dplyr')

#laden von dplyr 
library(dplyr)

Als Nächstes werden einige Beispiele für die Verwendung der Funktionen in dplyr zum Gruppieren und Zusammenfassen von Daten mithilfe des integrierten R-Datasets mit dem Namen mtcars veranschaulicht:

# Erhalten Sie Zeilen und Spalten von mtcars
dim(mtcars)

[1] 32 11

#die ersten sechs Reihen von mtcars anzeigen
head(mtcars)

                   mpg cyl disp  hp drat    wt  qsec vs am gear carb
Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

Die grundlegende Syntax zum Gruppieren und Zusammenfassen von Daten lautet wie folgt:

data %>%
  group_by(col_name) %>%
  summarize(summary_name = summary_function)

Hinweis: Die Funktionen summarize() und summarise() sind äquivalent.

Beispiel 1: Mittelwert und Median nach Gruppe ermitteln

Der folgende Code zeigt, wie Maße der zentralen Tendenz nach Gruppen berechnet werden, einschließlich des Mittelwerts und des Medians:

#Mittelwert von mpg pro Zylinder finden
mtcars %>%
  group_by(cyl) %>%
  summarize(mean_mpg = mean(mpg, na.rm = TRUE))

# A tibble: 3 x 2
    cyl mean_mpg

1     4     26.7
2     6     19.7
3     8     15.1

#Median von mpg pro Zylinder finden
mtcars %>%
  group_by(cyl) %>%
  summarize(median_mpg = median(mpg, na.rm = TRUE))

# A tibble: 3 x 2
    cyl median_mpg

1     4       26  
2     6       19.7
3     8       15.2

Beispiel 2: Finden Sie Ausbreitungsmaße nach Gruppe

Der folgende Code zeigt, wie Dispersionsmaße nach Gruppen berechnet werden, einschließlich Standardabweichung, Interquartilbereich und absoluter Medianabweichung:

#find sd, IQR und verrückt nach Zylinder
mtcars %>%
  group_by(cyl) %>%
  summarize(sd_mpg = sd(mpg, na.rm = TRUE),
            iqr_mpg = IQR(mpg, na.rm = TRUE),
            mad_mpg = mad(mpg, na.rm = TRUE))

# A tibble: 3 x 4
    cyl sd_mpg iqr_mpg mad_mpg

1     4   4.51    7.60    6.52
2     6   1.45    2.35    1.93
3     8   2.56    1.85    1.56

Beispiel 3: Anzahl nach Gruppe ermitteln

Der folgende Code zeigt, wie Sie die Anzahl und die eindeutige Anzahl nach Gruppen in R ermitteln:

#Finden Sie die Zeilenanzahl und die eindeutige Zeilenanzahl nach cylinder
mtcars %>%
  group_by(cyl) %>%
  summarize(count_mpg = n(),
            u_count_mpg = n_distinct(mpg))

# A tibble: 3 x 3
    cyl count_mpg u_count_mpg

1     4        11           9
2     6         7           6
3     8        14          12

Beispiel 4: Perzentil nach Gruppe suchen

Der folgende Code zeigt, wie das 90. Perzentil der Werte für mpg nach Zylindergruppen ermittelt wird:

#Finden Sie das 90. Perzentil von mpg für jede Zylindergruppe
mtcars %>%
  group_by(cyl) %>%
  summarize(quant90 = quantile(mpg, probs = .9))

# A tibble: 3 x 2
    cyl quant90

1     4    32.4
2     6    21.2
3     8    18.3

Zusätzliche Ressourcen

Die vollständige Dokumentation zum dplyr-Paket sowie hilfreiche Visualisierungs-Spickzettel finden Sie hier.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: