Ein Log-Log-Diagramm ist ein Diagramm, das sowohl auf der x-Achse als auch auf der y-Achse logarithmische Skalen verwendet.
Diese Art von Diagramm ist nützlich, um zwei Variablen zu visualisieren, wenn …
Die Hauptkomponentenanalyse (PCA) ist ein unüberwachtes maschinelles Lernverfahren, das darauf abzielt, Hauptkomponenten - lineare Kombinationen der Prädiktorvariablen - zu finden, die einen großen Teil der Variation in einem Datensatz erklären.
Wenn wir PCA durchführen, sind wir oft daran interessiert zu verstehen, welcher Prozentsatz der Gesamtvariation im Datensatz durch jede Hauptkomponente erklärt werden kann.
Eine der einfachsten Möglichkeiten, den Prozentsatz der durch jede Hauptkomponente erklärten Variation zu visualisieren, ist die Erstellung eines Scree-Plots.
Dieses Tutorial bietet ein schrittweises Beispiel für die Erstellung eines Scree-Plots in R.
Für dieses Beispiel verwenden wir einen Datensatz namens USArrests, der Daten über die Anzahl der Verhaftungen pro 100.000 Einwohner in jedem US-Bundesstaat im Jahr 1973 für verschiedene Verbrechen enthält.
Der folgende Code zeigt, wie man die ersten Zeilen dieses Datensatzes lädt und anzeigt:
#Daten laden
data("USArrests")
#die ersten sechs Zeilen der Daten anzeigen
head(USArrests)
Murder Assault UrbanPop Rape
Alabama 13.2 236 58 21.2
Alaska 10.0 263 48 44.5
Arizona 8.1 294 80 31.0
Arkansas 8.8 190 50 19.5
California 9.0 276 91 40.6
Colorado 7.9 204 78 38.7
Als Nächstes verwenden wir die in R integrierte Funktion prcomp(), um eine Hauptkomponentenanalyse durchzuführen.
#PCA durchführen
results <- prcomp(USArrests, scale = TRUE)
Zuletzt berechnen wir den Prozentsatz der Gesamtvarianz, der durch jede Hauptkomponente erklärt wird, und verwenden ggplot2, um einen Scree Plot zu erstellen:
#Berechnen Sie die Gesamtvarianz, die durch jede Hauptkomponente erklärt wird
var_explained = results$sdev^2 / sum(results$sdev^2)
#Erstellen eines Scree-Plots
library(ggplot2)
qplot(c(1:4), var_explained) +
geom_line() +
xlab("Principal Component") +
ylab("Variance Explained") +
ggtitle("Scree Plot") +
ylim(0, 1)
Die x-Achse zeigt die Hauptkomponente und die y-Achse zeigt den Prozentsatz der Gesamtvarianz, der durch jede einzelne Hauptkomponente erklärt wird.
Wir können auch den folgenden Code verwenden, um den genauen Prozentsatz der Gesamtvarianz anzuzeigen, der durch jede Hauptkomponente erklärt wird:
print(var_explained)
[1] 0.62006039 0.24744129 0.08914080 0.04335752
Wir können sehen:
Beachten Sie, dass die Summe aller Prozentsätze 100% ergibt.
Weitere Tutorials zum maschinellen Lernen finden Sie auf dieser Seite.
Ein Log-Log-Diagramm ist ein Diagramm, das sowohl auf der x-Achse als auch auf der y-Achse logarithmische Skalen verwendet.
Diese Art von Diagramm ist nützlich, um zwei Variablen zu visualisieren, wenn …
Bei der Verwendung von Klassifizierungsmodellen beim maschinellen Lernen verwenden wir häufig zwei Metriken, um die Qualität des Modells zu bewerten, nämlich Präzision und Erinnerung.
Precision: Korrigieren Sie positive Vorhersagen im …