Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
- K: Die Anzahl der Modellparameter …
Wenn wir eine einfache lineare Regression in R durchführen, ist es einfach, die angepasste Regressionslinie zu visualisieren, da wir nur mit einer einzelnen Prädiktorvariablen und einer einzelnen Antwortvariablen arbeiten.
Der folgende Code zeigt beispielsweise, wie ein einfaches lineares Regressionsmodell an einen Datensatz angepasst und die Ergebnisse grafisch dargestellt werden:
# Datensatz erstellen
data <- data.frame(x = c(1, 1, 2, 4, 4, 5, 6, 7, 7, 8, 9, 10, 11, 11),
y = c(13, 14, 17, 23, 24, 25, 25, 24, 28, 32, 33, 35, 40, 41))
#einfaches lineares Regressionsmodell anpassen
model <- lm(y ~ x, data = data)
# Streudiagramm von Daten erstellen
plot(data$x, data$y)
#angepasste Regressionslinie hinzufügen
abline(model)
Wenn wir jedoch mehrere lineare Regressionen durchführen, wird es schwierig, die Ergebnisse zu visualisieren, da es mehrere Prädiktorvariablen gibt und wir nicht einfach eine Regressionslinie auf einem 2D-Diagramm zeichnen können.
Stattdessen können wir partielle Regressionsdiagramme verwenden. Hierbei handelt es sich um einzelne Diagramme, die die Beziehung zwischen der Antwortvariablen und einer Prädiktorvariablen anzeigen und gleichzeitig das Vorhandensein anderer Prädiktorvariablen im Modell steuern.
Das folgende Beispiel zeigt, wie Sie in R eine multiple lineare Regression durchführen und die Ergebnisse mithilfe hinzugefügter variabler Diagramme visualisieren.
Angenommen, wir passen das folgende multiple lineare Regressionsmodell mithilfe des integrierten mtcars-Datensatzes an einen Datensatz in R an:
#Multiples lineares Regressionsmodell anpasssen
model <- lm(mpg ~ disp + hp + drat, data = mtcars)
#Ergebnisse des Modells anzeigen
summary(model)
Call:
lm(formula = mpg ~ disp + hp + drat, data = mtcars)
Residuals:
Min 1Q Median 3Q Max
-5.1225 -1.8454 -0.4456 1.1342 6.4958
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 19.344293 6.370882 3.036 0.00513 **
disp -0.019232 0.009371 -2.052 0.04960 *
hp -0.031229 0.013345 -2.340 0.02663 *
drat 2.714975 1.487366 1.825 0.07863 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.008 on 28 degrees of freedom
Multiple R-squared: 0.775, Adjusted R-squared: 0.7509
F-statistic: 32.15 on 3 and 28 DF, p-value: 3.28e-09
Aus den Ergebnissen können wir sehen, dass die p-Werte für jeden der Koeffizienten kleiner als 0,1 sind. Der Einfachheit halber nehmen wir an, dass jede der Prädiktorvariablen signifikant ist und in das Modell aufgenommen werden sollte.
Um hinzugefügte variable Diagramme zu erstellen, können wir die Funktion avPlots() aus dem car-Package verwenden:
#Paket laden
library(car)
avPlots (Modell)
So interpretieren Sie jeden Plot:
Beachten Sie, dass der Winkel der Linie in jedem Diagramm mit dem Vorzeichen des Koeffizienten aus der geschätzten Regressionsgleichung übereinstimmt.
Hier sind zum Beispiel die geschätzten Koeffizienten für jede Prädiktorvariable aus dem Modell:
Beachten Sie, dass der Linienwinkel im Diagramm der hinzugefügten Variablen für drat positiv und für disp und hp negativ ist, was den Vorzeichen ihrer geschätzten Koeffizienten entspricht:
Obwohl wir keine einzelne angepasste Regressionslinie in einem 2D-Diagramm darstellen können, da wir mehrere Prädiktorvariablen haben, können wir mit diesen hinzugefügten Variablendiagrammen die Beziehung zwischen jeder einzelnen Prädiktorvariablen und der Antwortvariablen beobachten, während andere Prädiktorvariablen konstant gehalten werden.
Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
Die logistische Regression ist eine statistische Methode, die wir verwenden, um ein Regressionsmodell anzupassen, wenn die Antwortvariable binär ist.
Um zu beurteilen, wie gut ein logistisches Regressionsmodell zu einem Datensatz …