So berechnen Sie den Standardfehler der Residuen in R

Von Fabian
Kategorie: R
Tags: Regression
Lesezeit: 3 Minuten

Immer wenn wir ein lineares Regressionsmodell in R anpassen, nimmt das Modell die folgende Form an:

Y = β 0 + β 1 X +… + β i X + ϵ

Dabei ist ϵ ein von X unabhängiger Fehlerterm.

Egal wie gut X verwendet werden kann, um die Werte von Y vorherzusagen, es wird immer einen zufälligen Fehler im Modell geben. Eine Möglichkeit, die Dispersion dieser Zufallsfehler zu messen, ist, den Standardfehler der Residuen zu verwenden, der eine Art und Weise ist die Standardabweichung der Residuen ε zu messen.

Der Standardfehler der Residuen eines Regressionsmodells wird wie folgt berechnet:

Standardfehler der Residuen = √ SS- Residuen / df- Residuen

wo:

  • SS- Residuen: Die Residuen-Quadratsumme.
  • df Residuen: Die Residuen-Freiheitsgrade, berechnet als n - k - 1, wobei n = Gesamtbeobachtungen und k = Gesamtmodellparameter.

Es gibt drei Methoden, mit denen wir den Standardfehler der Residuen eines Regressionsmodells in R berechnen können.

Methode 1: Analysieren Sie die Modellzusammenfassung

Der erste Weg, um den Standardfehler der Residuen zu erhalten, besteht darin, einfach ein lineares Regressionsmodell anzupassen und dann den Befehl summary() zu verwenden, um die Modellergebnisse zu erhalten. Suchen Sie dann einfach nach "residual standard error" am unteren Rand der Ausgabe:

#integriertes mtcars- Dataset laden
data(mtcars)

#Regressionsmodell anpassen
model <- lm(mpg~disp+hp, data=mtcars)

#Modellzusammenfassung anzeigen
summary(Modell)

Anruf:
lm (Formel = mpg ~ disp + hp, Daten = mtcars)

Call:
lm(formula = mpg ~ disp + hp, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.7945 -2.3036 -0.8246  1.8582  6.9363 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 30.735904   1.331566  23.083  < 2e-16 ***
disp        -0.030346   0.007405  -4.098 0.000306 ***
hp          -0.024840   0.013385  -1.856 0.073679 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.127 on 29 degrees of freedom
Multiple R-squared:  0.7482,    Adjusted R-squared:  0.7309 
F-statistic: 43.09 on 2 and 29 DF,  p-value: 2.062e-09

Wir können sehen, dass der Standardfehler der Residuen 3,127 beträgt.

Methode 2: Verwenden Sie eine einfache Formel

Eine andere Möglichkeit, den Standardfehler der Residuen (RSE, engl. residual standard error) zu erhalten, besteht darin, ein lineares Regressionsmodell anzupassen und dann die folgende Formel zur Berechnung von RSE zu verwenden:

sqrt(deviance(model)/df.residual(model))

So implementieren Sie diese Formel in R:

#integriertes mtcars- Dataset laden
data(mtcars)

#Regressionsmodell anzeigen
Modell <- lm (mpg ~ disp + hp, data = mtcars)

#Standardfehler der Residuen berechnen
sqrt(deviance(model)/df.residual(model))

[1] 3.126601

Wir können sehen, dass der Standardfehler der Residuen 3.126601 ist.

Methode 3: Verwenden Sie eine Schritt-für-Schritt-Formel

Eine andere Möglichkeit, den Standardfehler der Residuen zu erhalten, besteht darin, ein lineares Regressionsmodell anzupassen und dann einen schrittweisen Ansatz zu verwenden, um jede einzelne Komponente der Formel für RSE zu berechnen:

#integriertes mtcars- Dataset laden
data(mtcars)

#Regressionsmodell anpassen
model <- lm(mpg~disp+hp, data=mtcars)

#Berechnen Sie die Anzahl der Modellparameter - 1
k=length(model$coefficients)-1

#Berechnen Sie die Residuenquadratsumme
SSE=sum(model$residuals**2)

#Gesamtbeobachtungen im Datensatz berechnen
n=length(model$residuals)

# Residuenstandardfehler berechnen
sqrt(SSE/(n-(1+k)))

[1] 3.126601

Wir können sehen, dass der Standardfehler der Residuen 3.126601 ist.

Interpretieren des Standardfehlers der Residuen

Wie bereits erwähnt, ist der Residual Standard Error (RSE) eine Möglichkeit, die Standardabweichung der Residuen in einem Regressionsmodell zu messen.

Je niedriger der Wert für RSE ist, desto besser kann sich ein Modell den Daten anpassen (achten Sie jedoch auf eine Überanpassung bzw. Overfitting). Dies kann eine nützliche Metrik sein, die beim Vergleich von zwei oder mehr Modellen verwendet werden kann, um festzustellen, welches Modell am besten zu den Daten passt.

Zusätzliche Ressourcen

So führen Sie eine mehrfache lineare Regression in R durch
Durchführen einer Kreuzvalidierung für die Modellleistung in R
Berechnen der Standardabweichung in R

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: