Oft möchten Sie möglicherweise die Anzahl der Beobachtungen (oder Zeilen) nach Gruppen in R zählen. Glücklicherweise ist dies mit der Funktion count() aus der dplyr-Bibliothek einfach zu bewerkstelligen.
library …
Oft möchten Sie möglicherweise doppelte Zeilen in einem Dataframe in R entfernen. Glücklicherweise ist dies mit der Funktion distinct() aus der dplyr-Bibliothek einfach zu bewerkstelligen.
library(dplyr)
In diesem Tutorial werden einige Beispiele für die praktische Verwendung dieser Funktion anhand des folgenden Dataframes erläutert:
# Dataframe erstellen
df <- data.frame(x = c('a', 'b', 'b', 'b', 'c', 'c', 'c', 'd', 'd', 'e'),
y = c(1, 2, 2, 4, 4, 5, 9, 17, 17, 25))
# Dataframe anzeigen
df
x y
1 a 1
2 b 2
3 b 2
4 b 4
5 c 4
6 c 5
7 c 9
8 d 17
9 d 17
10 e 25
Der folgende Code zeigt, wie Sie Zeilen entfernen, die vollständige Duplikate anderer Zeilen sind:
# zeigt nur eindeutige Zeilen an
distinct(df)
x y
1 a 1
2 b 2
3 b 4
4 c 4
5 c 5
6 c 9
7 d 17
8 e 25
#findet die Gesamtzahl der Zeilen im ursprünglichen Dataframe
nrow(df)
[1] 10
#finden Sie die Gesamtzahl der eindeutigen Zeilen
nrow(distinct(df))
[1] 8
#findet die Gesamtzahl der doppelten Zeilen
nrow(df) - nrow(distinct(df))
[1] 2
Wir können sehen, dass 2 doppelte Zeilen aus dem Dataframe entfernt wurden.
Der folgende Code zeigt, wie Zeilen mit Duplikaten in einer bestimmten Spalte eines Dataframes entfernt werden:
# zeigt nur eindeutige Werte in Spalte x an
distinct(df, x)
x
1 a
2 b
3 c
4 d
5 e
# zeigt nur eindeutige Werte in Spalte x an
distinct(df, y)
y
1 1
2 2
3 4
4 5
5 9
6 17
7 25
Sie können auch doppelte Werte in einer Spalte entfernen und trotzdem alle anderen Spalten im Dataframe beibehalten:
# zeigt nur eindeutige Werte in Spalte x an und behält andere Spalten bei
distinct(df, x, .keep_all = TRUE)
x y
1 a 1
2 b 2
3 c 4
4 d 17
5 e 25
# zeigt nur eindeutige Werte in Spalte y an und behält andere Spalten bei
distinct(df, y, .keep_all = TRUE)
x y
1 a 1
2 b 2
3 b 4
4 c 5
5 c 9
6 d 17
7 e 25
Die vollständige Dokumentation zur Funktion distinct() finden Sie hier.
Oft möchten Sie möglicherweise die Anzahl der Beobachtungen (oder Zeilen) nach Gruppen in R zählen. Glücklicherweise ist dies mit der Funktion count() aus der dplyr-Bibliothek einfach zu bewerkstelligen.
library …