So verwenden Sie Pandas Get Dummies – pd.get_dummies

Von Fabian
Kategorie: Python
Tags: Regression
Lesezeit: 3 Minuten

In der Statistik enthalten die Datensätze, mit denen wir arbeiten, häufig kategoriale Variablen.

Dies sind Variablen, die Namen oder Bezeichnungen annehmen. Beispiele beinhalten:

  • Familienstand („verheiratet“, „ledig“, „geschieden“)
  • Raucherstatus („Raucher“, „Nichtraucher“)
  • Augenfarbe („Blau“, „Grün“, „Hasel“)
  • Bildungsgrad (z. B. „Abitur“, „Bachelor“, „Master“)

Beim Anpassen von Algorithmen für maschinelles Lernen (wie lineare Regression, logistische Regression, Random Forests usw.) konvertieren wir häufig kategoriale Variablen in Dummy-Variablen, bei denen es sich um numerische Variablen handelt, die zur Darstellung kategorialer Daten verwendet werden.

Angenommen, wir haben einen Datensatz, der die kategoriale Variable Geschlecht enthält. Um diese Variable als Prädiktor in einem Regressionsmodell zu verwenden, müssten wir sie zunächst in eine Dummy-Variable umwandeln.

Um diese Dummy-Variable zu erstellen, können wir einen der Werte („Männlich“) auswählen, um 0 darzustellen, und den anderen Wert („Weiblich“), um 1 darzustellen:

Schnuller

So erstellen Sie Dummy-Variablen in Pandas

Um Dummy-Variablen für eine Variable in einem Pandas DataFrame zu erstellen, können wir die Funktion pandas.get_dummies() verwenden, die die folgende grundlegende Syntax verwendet:

pandas.get_dummies(Daten, Präfix=Keine, Spalten=Keine, drop_first=False)

wo:

  • data : Der Name des Pandas DataFrame
  • prefix : Eine Zeichenfolge, die an den Anfang der neuen Dummy-Variablenspalte angehängt wird
  • Spalten : Der Name der Spalte(n), die in eine Dummy-Variable konvertiert werden sollen
  • drop_first : Ob die erste Dummy-Variablenspalte gelöscht werden soll oder nicht

Die folgenden Beispiele zeigen, wie Sie diese Funktion in der Praxis verwenden können.

Beispiel 1: Erstellen Sie eine einzelne Dummy-Variable

Angenommen, wir haben den folgenden Pandas DataFrame:

import pandas as pd

#Dataframe erstellen
df = pd.DataFrame({'income': [45, 48, 54, 57, 65, 69, 78],
                   'age': [23, 25, 24, 29, 38, 36, 40],
                   'gender': ['M', 'F', 'M', 'F', 'F', 'F', 'M']})

#Dataframe anzeigen
df

        income  age gender
0   45  23  M
1   48  25  F
2   54  24  M
3   57  29  F
4   65  38  F
5   69  36  F
6   78  40  M

Wir können die Funktion pd.get_dummies() verwenden, um das Geschlecht in eine Dummy-Variable umzuwandeln:

#Konvertiere das Geschlecht in eine Dummy-Variable
pd.get_dummies(df, columns=['gender'], drop_first=True)

    income  age gender_M
0   45  23  1
1   48  25  0
2   54  24  1
3   57  29  0
4   65  38  0
5   69  36  0
6   78  40  1

Die Geschlechtsspalte ist jetzt eine Dummy-Variable, wobei:

  • Ein Wert von 0 steht für „weiblich“.
  • Ein Wert von 1 steht für „männlich“

Beispiel 2: Erstellen Sie mehrere Dummy-Variablen

Angenommen, wir haben den folgenden Pandas DataFrame:

pandas als pd importieren

#Dataframe erstellen
df = pd. DataFrame ({' Einkommen ': [45, 48, 54, 57, 65, 69, 78],
                  ' Alter ': [23, 25, 24, 29, 38, 36, 40],
                  ' Geschlecht ': ['M', 'F', 'M', 'F', 'F', 'F', 'M'],
                  ' Hochschule ': ['Y', 'N', 'N', 'N', 'Y', 'Y', 'Y']})

#Dataframe anzeigen
df

    income  age gender  college
0   45  23  M   Y
1   48  25  F   N
2   54  24  M   N
3   57  29  F   N
4   65  38  F   Y
5   69  36  F   Y
6   78  40  M   Y

Wir können die Funktion pd.get_dummies() verwenden, um Geschlecht und Hochschule in Dummy-Variablen umzuwandeln:

#Konvertiere das Geschlecht in eine Dummy-Variable
pd.get_dummies(df, columns=['gender', 'college'], drop_first=True)


        income  age gender_M  college_Y
0   45  23  1     1
1   48  25  0     0
2   54  24  1     0
3   57  29  0     0
4   65  38  0     1
5   69  36  0     1
6   78  40  1     1

Die Geschlechtsspalte ist jetzt eine Dummy-Variable, wobei:

  • Ein Wert von 0 steht für „weiblich“
  • Ein Wert von 1 steht für „männlich“

Und die College-Spalte ist jetzt eine Dummy-Variable, in der:

  • Ein Wert von 0 steht für „Nein“ zur Hochschule
  • Ein Wert von 1 steht für „Ja“ Hochschule

Zusätzliche Ressourcen

So verwenden Sie Dummy-Variablen in der Regressionsanalyse
Was ist die Dummy-Variablenfalle?

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: