So plotten Sie eine multiple lineare Regression in R

Wenn wir eine einfache lineare Regression in R durchführen, ist es einfach, die angepasste Regressionslinie zu visualisieren, da wir nur mit einer einzelnen Prädiktorvariablen und einer einzelnen Antwortvariablen arbeiten.

Der folgende Code zeigt beispielsweise, wie ein einfaches lineares Regressionsmodell an einen Datensatz angepasst und die Ergebnisse grafisch dargestellt werden:

# Datensatz erstellen
data <- data.frame(x = c(1, 1, 2, 4, 4, 5, 6, 7, 7, 8, 9, 10, 11, 11),
                   y = c(13, 14, 17, 23, 24, 25, 25, 24, 28, 32, 33, 35, 40, 41))

#einfaches lineares Regressionsmodell anpassen
model <- lm(y ~ x, data = data)

# Streudiagramm von Daten erstellen
plot(data$x, data$y)

#angepasste Regressionslinie hinzufügen
abline(model)

Wenn wir jedoch mehrere lineare Regressionen durchführen, wird es schwierig, die Ergebnisse zu visualisieren, da es mehrere Prädiktorvariablen gibt und wir nicht einfach eine Regressionslinie auf einem 2D-Diagramm zeichnen können.

Stattdessen können wir partielle Regressionsdiagramme verwenden. Hierbei handelt es sich um einzelne Diagramme, die die Beziehung zwischen der Antwortvariablen und einer Prädiktorvariablen anzeigen und gleichzeitig das Vorhandensein anderer Prädiktorvariablen im Modell steuern.

Das folgende Beispiel zeigt, wie Sie in R eine multiple lineare Regression durchführen und die Ergebnisse mithilfe hinzugefügter variabler Diagramme visualisieren.

Beispiel: Zeichnen mehrerer linearer Regressionsergebnisse in R

Angenommen, wir passen das folgende multiple lineare Regressionsmodell mithilfe des integrierten mtcars-Datensatzes an einen Datensatz in R an:

#Multiples lineares Regressionsmodell anpasssen
model <- lm(mpg ~ disp + hp + drat, data = mtcars)

#Ergebnisse des Modells anzeigen
summary(model)

Call:
lm(formula = mpg ~ disp + hp + drat, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.1225 -1.8454 -0.4456  1.1342  6.4958 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)   
(Intercept) 19.344293   6.370882   3.036  0.00513 **
disp        -0.019232   0.009371  -2.052  0.04960 * 
hp          -0.031229   0.013345  -2.340  0.02663 * 
drat         2.714975   1.487366   1.825  0.07863 . 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.008 on 28 degrees of freedom
Multiple R-squared:  0.775, Adjusted R-squared:  0.7509 
F-statistic: 32.15 on 3 and 28 DF,  p-value: 3.28e-09

Aus den Ergebnissen können wir sehen, dass die p-Werte für jeden der Koeffizienten kleiner als 0,1 sind. Der Einfachheit halber nehmen wir an, dass jede der Prädiktorvariablen signifikant ist und in das Modell aufgenommen werden sollte.

Um hinzugefügte variable Diagramme zu erstellen, können wir die Funktion avPlots() aus dem car-Package verwenden:

#Paket laden
library(car)

avPlots (Modell)

So interpretieren Sie jeden Plot:

Die x-Achse zeigt eine einzelne Prädiktorvariable an und die y-Achse zeigt die Antwortvariable an.
Die blaue Linie zeigt die Zuordnung zwischen der Prädiktorvariablen und der Antwortvariablen, während der Wert aller anderen Prädiktorvariablen konstant gehalten wird.
Die Punkte, die in jedem Diagramm markiert sind, repräsentieren die 2 Beobachtungen mit den größten Residuen und die 2 Beobachtungen mit der größten partiellen Hebelwirkung.

Beachten Sie, dass der Winkel der Linie in jedem Diagramm mit dem Vorzeichen des Koeffizienten aus der geschätzten Regressionsgleichung übereinstimmt.

Hier sind zum Beispiel die geschätzten Koeffizienten für jede Prädiktorvariable aus dem Modell:

disp: -0.019232
PS: -0,031229
drat: 2.714975

Beachten Sie, dass der Linienwinkel im Diagramm der hinzugefügten Variablen für drat positiv und für disp und hp negativ ist, was den Vorzeichen ihrer geschätzten Koeffizienten entspricht:

Obwohl wir keine einzelne angepasste Regressionslinie in einem 2D-Diagramm darstellen können, da wir mehrere Prädiktorvariablen haben, können wir mit diesen hinzugefügten Variablendiagrammen die Beziehung zwischen jeder einzelnen Prädiktorvariablen und der Antwortvariablen beobachten, während andere Prädiktorvariablen konstant gehalten werden.

Beispiel: Zeichnen mehrerer linearer Regressionsergebnisse in R

Statistik: Der Weg zur Datenanalyse

So berechnen Sie AIC von Regressionsmodellen in Python

So berechnen Sie die AUC (Fläche unter der Kurve) in Python