Der einfachste Weg, doppelte Zeilen in einem Pandas-DataFrame zu löschen, ist die Verwendung der Funktion drop_duplicates(), die die folgende Syntax verwendet:

df.drop_duplicates(subset=None, keep=’first’, inplace=False)

wo:

  • subset: Welche Spalten zur Identifizierung von Duplikaten zu berücksichtigen sind. Standard sind alle Spalten.
  • keep: Gibt an, welche Duplikate (falls vorhanden) aufbewahrt werden sollen.
  • first: Löscht alle doppelten Zeilen außer first.
  • last: Löscht alle doppelten Zeilen außer last.
  • False: Alle Duplikate löschen.
  • inplace: Gibt an, ob Duplikate an Ort und Stelle gelöscht oder eine Kopie des DataFrame zurückgegeben werden sollen.

Dieses Tutorial enthält einige Beispiele für die praktische Verwendung dieser Funktion auf dem folgenden DataFrame:

import pandas as pd

# Dataframe erstellen
df = pd.DataFrame({'team': ['a', 'b', 'b', 'c', 'c', 'd'],
                   'points': [3, 7, 7, 8, 8, 9],
                   'assists': [8, 6, 7, 9, 9, 3]})

# DataFrame anzeigen
print(df)

  team  points  assists
0    a       3        8
1    b       7        6
2    b       7        7
3    c       8        9
4    c       8        9
5    d       9        3

Beispiel 1: Entfernen von Duplikaten in allen Spalten

Der folgende Code zeigt, wie Zeilen mit doppelten Werten in allen Spalten entfernt werden:

df.drop_duplicates()

        team    points  assists
0   a   3   8
1   b   7   6
2   b   7   7
3   c   8   9
5   d   9   3

Standardmäßig löscht die Funktion drop_duplicates() alle Duplikate mit Ausnahme des ersten.

Wir könnten jedoch das Argument keep = False verwenden, um alle Duplikate vollständig zu löschen:

df.drop_duplicates(keep=False)

    team    points  assists
0   a   3   8
1   b   7   6
2   b   7   7
5   d   9   3

Beispiel 2: Entfernen von Duplikaten über bestimmte Spalten hinweg

Der folgende Code zeigt, wie Zeilen mit doppelten Werten nur in den Spalten mit dem Titel team und points entfernt werden* :

df.drop_duplicates(subset=['team', 'points'])

        team    points  assists
0   a   3   8
1   b   7   6
3   c   8   9
5   d   9   3

Zusätzliche Ressourcen

So sortieren Sie Werte in einem Pandas DataFrame
So filtern Sie einen Pandas DataFrame unter mehreren Bedingungen
So fügen Sie eine Spalte in einen Pandas DataFrame ein

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: