Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
- K: Die Anzahl der Modellparameter …
Immer wenn wir ein lineares Regressionsmodell in R anpassen, nimmt das Modell die folgende Form an:
Y = β 0 + β 1 X +… + β i X + ϵ
Dabei ist ϵ ein von X unabhängiger Fehlerterm.
Egal wie gut X verwendet werden kann, um die Werte von Y vorherzusagen, es wird immer einen zufälligen Fehler im Modell geben. Eine Möglichkeit, die Dispersion dieser Zufallsfehler zu messen, ist, den Standardfehler der Residuen zu verwenden, der eine Art und Weise ist die Standardabweichung der Residuen ε zu messen.
Der Standardfehler der Residuen eines Regressionsmodells wird wie folgt berechnet:
Standardfehler der Residuen = √ SS- Residuen / df- Residuen
wo:
Es gibt drei Methoden, mit denen wir den Standardfehler der Residuen eines Regressionsmodells in R berechnen können.
Der erste Weg, um den Standardfehler der Residuen zu erhalten, besteht darin, einfach ein lineares Regressionsmodell anzupassen und dann den Befehl summary() zu verwenden, um die Modellergebnisse zu erhalten. Suchen Sie dann einfach nach "residual standard error" am unteren Rand der Ausgabe:
#integriertes mtcars- Dataset laden
data(mtcars)
#Regressionsmodell anpassen
model <- lm(mpg~disp+hp, data=mtcars)
#Modellzusammenfassung anzeigen
summary(Modell)
Anruf:
lm (Formel = mpg ~ disp + hp, Daten = mtcars)
Call:
lm(formula = mpg ~ disp + hp, data = mtcars)
Residuals:
Min 1Q Median 3Q Max
-4.7945 -2.3036 -0.8246 1.8582 6.9363
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 30.735904 1.331566 23.083 < 2e-16 ***
disp -0.030346 0.007405 -4.098 0.000306 ***
hp -0.024840 0.013385 -1.856 0.073679 .
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.127 on 29 degrees of freedom
Multiple R-squared: 0.7482, Adjusted R-squared: 0.7309
F-statistic: 43.09 on 2 and 29 DF, p-value: 2.062e-09
Wir können sehen, dass der Standardfehler der Residuen 3,127 beträgt.
Eine andere Möglichkeit, den Standardfehler der Residuen (RSE, engl. residual standard error) zu erhalten, besteht darin, ein lineares Regressionsmodell anzupassen und dann die folgende Formel zur Berechnung von RSE zu verwenden:
sqrt(deviance(model)/df.residual(model))
So implementieren Sie diese Formel in R:
#integriertes mtcars- Dataset laden
data(mtcars)
#Regressionsmodell anzeigen
Modell <- lm (mpg ~ disp + hp, data = mtcars)
#Standardfehler der Residuen berechnen
sqrt(deviance(model)/df.residual(model))
[1] 3.126601
Wir können sehen, dass der Standardfehler der Residuen 3.126601 ist.
Eine andere Möglichkeit, den Standardfehler der Residuen zu erhalten, besteht darin, ein lineares Regressionsmodell anzupassen und dann einen schrittweisen Ansatz zu verwenden, um jede einzelne Komponente der Formel für RSE zu berechnen:
#integriertes mtcars- Dataset laden
data(mtcars)
#Regressionsmodell anpassen
model <- lm(mpg~disp+hp, data=mtcars)
#Berechnen Sie die Anzahl der Modellparameter - 1
k=length(model$coefficients)-1
#Berechnen Sie die Residuenquadratsumme
SSE=sum(model$residuals**2)
#Gesamtbeobachtungen im Datensatz berechnen
n=length(model$residuals)
# Residuenstandardfehler berechnen
sqrt(SSE/(n-(1+k)))
[1] 3.126601
Wir können sehen, dass der Standardfehler der Residuen 3.126601 ist.
Wie bereits erwähnt, ist der Residual Standard Error (RSE) eine Möglichkeit, die Standardabweichung der Residuen in einem Regressionsmodell zu messen.
Je niedriger der Wert für RSE ist, desto besser kann sich ein Modell den Daten anpassen (achten Sie jedoch auf eine Überanpassung bzw. Overfitting). Dies kann eine nützliche Metrik sein, die beim Vergleich von zwei oder mehr Modellen verwendet werden kann, um festzustellen, welches Modell am besten zu den Daten passt.
So führen Sie eine mehrfache lineare Regression in R durch
Durchführen einer Kreuzvalidierung für die Modellleistung in R
Berechnen der Standardabweichung in R
Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
Die logistische Regression ist eine statistische Methode, die wir verwenden, um ein Regressionsmodell anzupassen, wenn die Antwortvariable binär ist.
Um zu beurteilen, wie gut ein logistisches Regressionsmodell zu einem Datensatz …