Die Hauptkomponentenanalyse (PCA) ist ein unüberwachtes maschinelles Lernverfahren, das darauf abzielt, Hauptkomponenten - lineare Kombinationen der Prädiktorvariablen - zu finden, die einen großen Teil der Variation in einem Datensatz erklären.

Wenn wir PCA durchführen, sind wir oft daran interessiert zu verstehen, welcher Prozentsatz der Gesamtvariation im Datensatz durch jede Hauptkomponente erklärt werden kann.

Eine der einfachsten Möglichkeiten, den Prozentsatz der durch jede Hauptkomponente erklärten Variation zu visualisieren, ist die Erstellung eines Scree-Plots.

Dieses Tutorial bietet ein schrittweises Beispiel für die Erstellung eines Scree-Plots in R.

Schritt 1: Laden des Datensatzes

Für dieses Beispiel verwenden wir einen Datensatz namens USArrests, der Daten über die Anzahl der Verhaftungen pro 100.000 Einwohner in jedem US-Bundesstaat im Jahr 1973 für verschiedene Verbrechen enthält.

Der folgende Code zeigt, wie man die ersten Zeilen dieses Datensatzes lädt und anzeigt:

#Daten laden
data("USArrests")

#die ersten sechs Zeilen der Daten anzeigen
head(USArrests)

           Murder Assault UrbanPop Rape
Alabama      13.2     236       58 21.2
Alaska       10.0     263       48 44.5
Arizona       8.1     294       80 31.0
Arkansas      8.8     190       50 19.5
California    9.0     276       91 40.6
Colorado      7.9     204       78 38.7

Schritt 2: PCA durchführen

Als Nächstes verwenden wir die in R integrierte Funktion prcomp(), um eine Hauptkomponentenanalyse durchzuführen.

#PCA durchführen
results <- prcomp(USArrests, scale = TRUE)

Schritt 3: Erstellen des Scree-Plots

Zuletzt berechnen wir den Prozentsatz der Gesamtvarianz, der durch jede Hauptkomponente erklärt wird, und verwenden ggplot2, um einen Scree Plot zu erstellen:

#Berechnen Sie die Gesamtvarianz, die durch jede Hauptkomponente erklärt wird
var_explained = results$sdev^2 / sum(results$sdev^2)

#Erstellen eines Scree-Plots
library(ggplot2)

qplot(c(1:4), var_explained) + 
  geom_line() + 
  xlab("Principal Component") + 
  ylab("Variance Explained") +
  ggtitle("Scree Plot") +
  ylim(0, 1)

Scree-Plot in R

Die x-Achse zeigt die Hauptkomponente und die y-Achse zeigt den Prozentsatz der Gesamtvarianz, der durch jede einzelne Hauptkomponente erklärt wird.

Wir können auch den folgenden Code verwenden, um den genauen Prozentsatz der Gesamtvarianz anzuzeigen, der durch jede Hauptkomponente erklärt wird:

print(var_explained)

[1] 0.62006039 0.24744129 0.08914080 0.04335752

Wir können sehen:

  • Die erste Hauptkomponente erklärt 62,01% der gesamten Variation im Datensatz.
  • Die zweite Hauptkomponente erklärt 24,74% der Gesamtvariation des Datensatzes.
  • Die dritte Hauptkomponente erklärt 8,91% der Gesamtvariation des Datensatzes.
  • Die vierte Hauptkomponente erklärt 4,34% der Gesamtvariation des Datensatzes.

Beachten Sie, dass die Summe aller Prozentsätze 100% ergibt.

Weitere Tutorials zum maschinellen Lernen finden Sie auf dieser Seite.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: