So entfernen Sie doppelte Zeilen in R

Von Fabian
Kategorie: R
Tags: dplyr
Lesezeit: 2 Minuten

Oft möchten Sie möglicherweise doppelte Zeilen in einem Dataframe in R entfernen. Glücklicherweise ist dies mit der Funktion distinct() aus der dplyr-Bibliothek einfach zu bewerkstelligen.

library(dplyr)

In diesem Tutorial werden einige Beispiele für die praktische Verwendung dieser Funktion anhand des folgenden Dataframes erläutert:

# Dataframe erstellen
df <- data.frame(x = c('a', 'b', 'b', 'b', 'c', 'c', 'c', 'd', 'd', 'e'),
                 y = c(1, 2, 2, 4, 4, 5, 9, 17, 17, 25))

# Dataframe anzeigen
df

   x  y
1  a  1
2  b  2
3  b  2
4  b  4
5  c  4
6  c  5
7  c  9
8  d 17
9  d 17
10 e 25

Beispiel 1: Entfernen Sie vollständig duplizierte Zeilen

Der folgende Code zeigt, wie Sie Zeilen entfernen, die vollständige Duplikate anderer Zeilen sind:

# zeigt nur eindeutige Zeilen an
distinct(df)

  x  y
1 a  1
2 b  2
3 b  4
4 c  4
5 c  5
6 c  9
7 d 17
8 e 25

#findet die Gesamtzahl der Zeilen im ursprünglichen Dataframe
nrow(df)

[1] 10

#finden Sie die Gesamtzahl der eindeutigen Zeilen
nrow(distinct(df))

[1] 8

#findet die Gesamtzahl der doppelten Zeilen
nrow(df) - nrow(distinct(df)) 

[1] 2

Wir können sehen, dass 2 doppelte Zeilen aus dem Dataframe entfernt wurden.

Beispiel 2: Entfernen von Duplikaten in einer Spalte

Der folgende Code zeigt, wie Zeilen mit Duplikaten in einer bestimmten Spalte eines Dataframes entfernt werden:

# zeigt nur eindeutige Werte in Spalte x an
distinct(df, x)

  x
1 a
2 b
3 c
4 d
5 e

# zeigt nur eindeutige Werte in Spalte x an
distinct(df, y)

   y
1  1
2  2
3  4
4  5
5  9
6 17
7 25

Sie können auch doppelte Werte in einer Spalte entfernen und trotzdem alle anderen Spalten im Dataframe beibehalten:

# zeigt nur eindeutige Werte in Spalte x an und behält andere Spalten bei
distinct(df, x, .keep_all = TRUE)

  x  y
1 a  1
2 b  2
3 c  4
4 d 17
5 e 25

# zeigt nur eindeutige Werte in Spalte y an und behält andere Spalten bei
distinct(df, y, .keep_all = TRUE)

  x  y
1 a  1
2 b  2
3 b  4
4 c  5
5 c  9
6 d 17
7 e 25

Die vollständige Dokumentation zur Funktion distinct() finden Sie hier.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: