Oft möchten Sie möglicherweise die Anzahl der Beobachtungen (oder Zeilen) nach Gruppen in R zählen. Glücklicherweise ist dies mit der Funktion count() aus der dplyr-Bibliothek einfach zu bewerkstelligen.
library …
Zwei der häufigsten Aufgaben, die Sie bei der Datenanalyse ausführen, sind das Gruppieren und Zusammenfassen von Daten. Glücklicherweise können Sie mit dem dplyr-Paket in R Daten schnell gruppieren und zusammenfassen.
Dieses Tutorial bietet eine Kurzanleitung für den Einstieg in dplyr.
Bevor Sie die Funktionen im dplyr-Paket verwenden können, müssen Sie zuerst das Paket laden:
#installieren von dplyr (falls nicht bereits installiert)
install.packages('dplyr')
#laden von dplyr
library(dplyr)
Als Nächstes werden einige Beispiele für die Verwendung der Funktionen in dplyr zum Gruppieren und Zusammenfassen von Daten mithilfe des integrierten R-Datasets mit dem Namen mtcars veranschaulicht:
# Erhalten Sie Zeilen und Spalten von mtcars
dim(mtcars)
[1] 32 11
#die ersten sechs Reihen von mtcars anzeigen
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
Die grundlegende Syntax zum Gruppieren und Zusammenfassen von Daten lautet wie folgt:
data %>%
group_by(col_name) %>%
summarize(summary_name = summary_function)
Hinweis: Die Funktionen summarize() und summarise() sind äquivalent.
Der folgende Code zeigt, wie Maße der zentralen Tendenz nach Gruppen berechnet werden, einschließlich des Mittelwerts und des Medians:
#Mittelwert von mpg pro Zylinder finden
mtcars %>%
group_by(cyl) %>%
summarize(mean_mpg = mean(mpg, na.rm = TRUE))
# A tibble: 3 x 2
cyl mean_mpg
1 4 26.7
2 6 19.7
3 8 15.1
#Median von mpg pro Zylinder finden
mtcars %>%
group_by(cyl) %>%
summarize(median_mpg = median(mpg, na.rm = TRUE))
# A tibble: 3 x 2
cyl median_mpg
1 4 26
2 6 19.7
3 8 15.2
Der folgende Code zeigt, wie Dispersionsmaße nach Gruppen berechnet werden, einschließlich Standardabweichung, Interquartilbereich und absoluter Medianabweichung:
#find sd, IQR und verrückt nach Zylinder
mtcars %>%
group_by(cyl) %>%
summarize(sd_mpg = sd(mpg, na.rm = TRUE),
iqr_mpg = IQR(mpg, na.rm = TRUE),
mad_mpg = mad(mpg, na.rm = TRUE))
# A tibble: 3 x 4
cyl sd_mpg iqr_mpg mad_mpg
1 4 4.51 7.60 6.52
2 6 1.45 2.35 1.93
3 8 2.56 1.85 1.56
Der folgende Code zeigt, wie Sie die Anzahl und die eindeutige Anzahl nach Gruppen in R ermitteln:
#Finden Sie die Zeilenanzahl und die eindeutige Zeilenanzahl nach cylinder
mtcars %>%
group_by(cyl) %>%
summarize(count_mpg = n(),
u_count_mpg = n_distinct(mpg))
# A tibble: 3 x 3
cyl count_mpg u_count_mpg
1 4 11 9
2 6 7 6
3 8 14 12
Der folgende Code zeigt, wie das 90. Perzentil der Werte für mpg nach Zylindergruppen ermittelt wird:
#Finden Sie das 90. Perzentil von mpg für jede Zylindergruppe
mtcars %>%
group_by(cyl) %>%
summarize(quant90 = quantile(mpg, probs = .9))
# A tibble: 3 x 2
cyl quant90
1 4 32.4
2 6 21.2
3 8 18.3
Die vollständige Dokumentation zum dplyr-Paket sowie hilfreiche Visualisierungs-Spickzettel finden Sie hier.
Oft möchten Sie möglicherweise die Anzahl der Beobachtungen (oder Zeilen) nach Gruppen in R zählen. Glücklicherweise ist dies mit der Funktion count() aus der dplyr-Bibliothek einfach zu bewerkstelligen.
library …