So erstellen Sie eine Korrelationsmatrix in Python

Von Fabian
Kategorie: Python
Lesezeit: 3 Minuten

Eine Möglichkeit, die Beziehung zwischen zwei Variablen zu quantifizieren, besteht darin, den Pearson-Korrelationskoeffizienten zu verwenden, der ein Maß für die lineare Assoziation zwischen zwei Variablen ist . Es nimmt einen Wert zwischen -1 und 1 an, wobei:

  • -1 zeigt eine vollkommen negative lineare Korrelation an.
  • 0 zeigt keine lineare Korrelation an.
  • 1 zeigt eine vollkommen positive lineare Korrelation an.

Je weiter der Korrelationskoeffizient von Null entfernt ist, desto stärker ist die Beziehung zwischen den beiden Variablen.

In einigen Fällen möchten wir jedoch die Korrelation zwischen mehr als nur einem Variablenpaar verstehen. In diesen Fällen können wir eine Korrelationsmatrix erstellen, bei der es sich um eine quadratische Tabelle handelt, die die Korrelationskoeffizienten zwischen mehreren paarweisen Kombinationen von Variablen zeigt.

In diesem Tutorial wird erklärt, wie Sie eine Korrelationsmatrix in Python erstellen und interpretieren.

So erstellen Sie eine Korrelationsmatrix in Python

Führen Sie die folgenden Schritte aus, um eine Korrelationsmatrix in Python zu erstellen.

Schritt 1: Erstellen Sie den Datensatz.

import pandas as pd

data = {'assists': [4, 5, 5, 6, 7, 8, 8, 10],
        'rebounds': [12, 14, 13, 7, 8, 8, 9, 13],
        'points': [22, 24, 26, 26, 29, 32, 20, 14]
}
df = pd.DataFrame(data,columns=['assists','rebounds','points'])
df
   assist  rebounds  points
0   4   12  22
1   5   14  24
2   5   13  26
3   6   7   26
4   7   8   29
5   8   8   32
6   8   9   20
7   10  13  14

Schritt 2: Erstellen Sie die Korrelationsmatrix.

#Korrelationsmatrix erstellen
df.corr()
                assists   rebounds     points
assists        1.000000  -0.244861  -0.329573
rebounds      -0.244861   1.000000  -0.522092
points        -0.329573  -0.522092   1.000000
#Erstellen Sie dieselbe Korrelationsmatrix mit auf 3 Dezimalstellen gerundeten Koeffizienten
df.corr().round(3)
           assists  rebounds  points
assists          1.000    -0.245  -0.330
rebounds    -0.245     1.000  -0.522
points          -0.330    -0.522   1.000

Schritt 3: Interpretieren Sie die Korrelationsmatrix.

Die Korrelationskoeffizienten entlang der Diagonale der Tabelle sind alle gleich 1, da jede Variable perfekt mit sich selbst korreliert ist.

Alle anderen Korrelationskoeffizienten geben die Korrelation zwischen verschiedenen paarweisen Kombinationen von Variablen an. Beispielsweise:

  • Der Korrelationskoeffizient zwischen Assists und Rebounds beträgt -0,245.
  • Der Korrelationskoeffizient zwischen Vorlagen und Punkten beträgt -0,330.
  • Der Korrelationskoeffizient zwischen Rebounds und Punkten beträgt -0,522.

Schritt 4: Visualisieren Sie die Korrelationsmatrix (optional).

Sie können unter Verwendung der in Pandas verfügbaren Styling-Optionen die Korrelationsmatrix visualisieren:

corr = df.corr()
corr.style.background_gradient(cmap='coolwarm')

Korrelationsmatrix in Python

Sie können auch das Argument cmap ändern, um eine Korrelationsmatrix mit verschiedenen Farben zu erstellen.

corr = df.corr()
corr.style.background_gradient(cmap='RdYlGn')

Korrelationsmatrix mit matplotlib in Python

corr = df.corr()
corr.style.background_gradient(cmap='bwr')

Korrelationsmatrix mit Pandas

corr = df.corr()
corr.style.background_gradient(cmap='PuOr')

Beispiel für eine Korrelationsmatrix in Python

Eine vollständige Liste der cmap-Argumente finden Sie in der matplotlib-Dokumentation.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: