Erstellen und Interpretieren von Paardiagrammen in R

Von Fabian
Kategorie: R
Lesezeit: 3 Minuten

Ein Paardiagramm ist eine Matrix von Streudiagrammen, die es Ihnen ermöglicht, die paarweise Beziehung zwischen verschiedenen Variablen in einem Datensatz zu verstehen.

Glücklicherweise ist es einfach, ein Paardiagramm in R zu erstellen, indem man die Funktion pairs() verwendet. Dieser Lehrgang enthält mehrere Beispiele für die praktische Anwendung dieser Funktion.

Beispiel 1: Paardiagramm für alle Variablen

Der folgende Code veranschaulicht, wie man in R eine einfache Paardarstellung für alle Variablen in einem Dataframe erstellt:

#das Beispiel reproduzierbar machen
set.seed(0)

#Erstellen eines Dataframes
var1 <- rnorm(1000)
var2 <- var1 + rnorm(1000, 0, 2)
var3 <- var2 - rnorm(1000, 0, 5)

df <- data.frame(var1, var2, var3)

#Paardiagramm erstellen
pairs(df)

Pairsr

Die Matrix ist wie folgt zu interpretieren:

  • Die Variablennamen werden entlang der Diagonalkästen angezeigt.
  • Alle anderen Boxen zeigen ein Streudiagramm der Beziehung zwischen jeder paarweisen Kombination von Variablen. Das Feld in der oberen rechten Ecke der Matrix zeigt beispielsweise ein Streudiagramm der Werte für Var1 und Var3 an. Die Box in der Mitte links zeigt ein Streudiagramm der Werte für Var1 und Var2 usw.

Dieses einzelne Diagramm gibt uns einen Eindruck von der Beziehung zwischen jedem Variablenpaar in unserem Datensatz. Zum Beispiel scheinen Var1 und Var2 positiv korreliert zu sein, während Var1 und Var3 wenig bis gar nicht korreliert zu sein scheinen.

Beispiel 2: Paardiagramm für bestimmte Variablen

Der folgende Code veranschaulicht, wie man ein einfaches Paardiagramm nur für die ersten beiden Variablen in einem Datensatz erstellt:

#erstelle ein Paardiagramm nur für var1 und var2
pairs(df[, 1:2])

Paardiagramm für bestimmte Variablen in R

Beispiel 3: Ändern der Ästhetik einer Paardarstellung

Der folgende Code veranschaulicht, wie die Ästhetik eines Paardiagramms, einschließlich des Titels, der Farbe und der Beschriftungen, geändert werden kann:

pairs(df,
      col = 'blue', #Farbe anpassen
      labels = c('First', 'Second', 'Third'), #Label anpassen
      main = 'Custom Title') #Titel anpassen

Benutzerdefinierte Paardarstellung in R

Beispiel 4: Ermitteln von Korrelationen mit ggpairs

Sie können auch den Pearson Korrelationskoeffizienten zwischen Variablen erhalten, indem Sie die Funktion ggpairs() aus der GGally-Bibliothek verwenden. Der folgende Code veranschaulicht, wie man diese Funktion verwendet:

#Installation der notwendigen Bibliotheken
install.packages('ggplot2')
install.packages('GGally')

#Bibliotheken laden
library(ggplot2)
library(GGally)

#Paarplot erstellen
ggpairs(df)

ggpairs Funktion in R Beispiel

Diese Matrix ist wie folgt zu interpretieren:

  • Die Variablennamen werden an den äußeren Rändern der Matrix angezeigt.
  • Die Kästchen entlang der Diagonalen zeigen den Dichteverlauf für jede Variable an.
  • Die Kästchen in der unteren linken Ecke zeigen das Streudiagramm zwischen den einzelnen Variablen an.
  • Die Kästchen in der oberen rechten Ecke zeigen den Pearson-Korrelationskoeffizienten zwischen den einzelnen Variablen an. Zum Beispiel ist die Korrelation zwischen var1 und var2 0,425.

Der Vorteil der Verwendung von ggpairs() gegenüber der R-Basisfunktion pairs() besteht darin, dass Sie mehr Informationen über die Variablen erhalten können. Insbesondere können Sie den Korrelationskoeffizienten zwischen jeder paarweisen Kombination von Variablen sowie ein Dichte-Diagramm für jede einzelne Variable sehen.

Die vollständige Dokumentation für die Funktion ggpairs() finden Sie hier.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: