Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
- K: Die Anzahl der Modellparameter …
Um ein lineares Regressionsmodell in R anzupassen, können wir den Befehl lm() verwenden.
Um die Ausgabe des Regressionsmodells anzuzeigen, können Sie den Befehl summary() verwenden.
In diesem Tutorial wird erklärt, wie jeder Wert in der Regressionsausgabe in R interpretiert wird.
Der folgende Code zeigt, wie ein multiples lineares Regressionsmodell mit dem integrierten mtcars-Dataset unter Verwendung von hp, drat und wt als Prädiktorvariablen und mpg als Antwortvariable angepasst wird:
#Regressionsmodell mit HP, Drat und WT als Prädiktoren anpassen
model <- lm(mpg ~ hp + drat + wt, data = mtcars)
#Modellzusammenfassung anzeigen
summary(model)
Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)
Residuals:
Min 1Q Median 3Q Max
-3.3598 -1.8374 -0.5099 0.9681 5.7078
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 **
drat 1.615049 1.226983 1.316 0.198755
wt -3.227954 0.796398 -4.053 0.000364 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11
So interpretieren Sie jeden Wert in der Ausgabe:
Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)
Dieser Abschnitt erinnert uns an die Formel, die wir in unserem Regressionsmodell verwendet haben. Wir können sehen, dass wir mpg als Antwortvariable und hp, drat und wt als unsere Prädiktorvariablen verwendet haben. Jede Variable stammt aus dem Datensatz mtcars.
Residuals:
Min 1Q Median 3Q Max
-3.3598 -1.8374 -0.5099 0.9681 5.7078
Dieser Abschnitt enthält eine Zusammenfassung der Verteilung der Residuen aus dem Regressionsmodell. Denken Sie daran, dass ein Residuum die Differenz zwischen dem beobachteten Wert und dem vorhergesagten Wert aus dem Regressionsmodell ist.
Das minimale Residuum betrug -3,3598, das mittlere Residuum betrug -0,5099 und das maximale Residuum betrug 5,7078.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 **
drat 1.615049 1.226983 1.316 0.198755
wt -3.227954 0.796398 -4.053 0.000364 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
In diesem Abschnitt werden die geschätzten Koeffizienten des Regressionsmodells angezeigt. Wir können diese Koeffizienten verwenden, um die folgende geschätzte Regressionsgleichung zu bilden:
mpg = 29,39 - 0,03 * PS + 1,62 * Drat - 3,23 * Gew
Für jede Prädiktorvariable erhalten wir die folgenden Werte:
Estimate: Der geschätzte Koeffizient. Dies zeigt uns die durchschnittliche Zunahme der Antwortvariablen, die mit einer Zunahme der Prädiktorvariablen um eine Einheit verbunden ist, vorausgesetzt, alle anderen Prädiktorvariablen werden konstant gehalten.
Std. Error: Dies ist der Standardfehler des Koeffizienten. Dies ist ein Maß für die Unsicherheit in unserer Schätzung des Koeffizienten.
t value: Dies ist die t-Statistik für die Prädiktorvariable, berechnet als (Schätzung) / (Standardfehler).
Pr(>|t|): Dies ist der p-Wert, der der t-Statistik entspricht. Wenn dieser Wert kleiner als ein Alpha-Level (z. B. 0,05) ist, wird die Prädiktorvariable als statistisch signifikant bezeichnet.
Wenn wir ein Alpha-Niveau von α = 0,05 verwenden würden, um zu bestimmen, welche Prädiktoren in diesem Regressionsmodell signifikant sind, würden wir sagen, dass hp und wt statistisch signifikante Prädiktoren sind, während drat dies nicht ist.
Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11
In diesem letzten Abschnitt werden verschiedene Zahlen angezeigt, anhand derer wir beurteilen können, wie gut das Regressionsmodell zu unserem Datensatz passt.
Residual standard error: Hier wird der durchschnittliche Abstand angegeben, um den die beobachteten Werte von der Regressionslinie abfallen. Je kleiner der Wert ist, desto besser kann das Regressionsmodell die Daten anpassen.
Die Freiheitsgrade werden als nk-1 berechnet, wobei n = Gesamtbeobachtungen und k = Anzahl der Prädiktoren. In diesem Beispiel hat mtcars 32 Beobachtungen und wir haben 3 Prädiktoren im Regressionsmodell verwendet, daher beträgt der Freiheitsgrad 32 - 3 - 1 = 28.
Multiple R-Squared: Dies wird als Bestimmungskoeffizient bezeichnet. Es gibt uns den Anteil der Varianz in der Antwortvariablen an, der durch die Prädiktorvariablen erklärt werden kann.
Dieser Wert reicht von 0 bis 1. Je näher er an 1 liegt, desto besser können die Prädiktorvariablen den Wert der Antwortvariablen vorhersagen.
Angepasstes R-Quadrat: Dies ist eine modifizierte Version des R-Quadrats, die an die Anzahl der Prädiktoren im Modell angepasst wurde. Es ist immer niedriger als das R-Quadrat.
Das angepasste R-Quadrat kann nützlich sein, um die Anpassung verschiedener Regressionsmodelle zu vergleichen, die unterschiedliche Anzahlen von Prädiktorvariablen verwenden.
F-Statistik: Dies gibt an, ob das Regressionsmodell besser zu den Daten passt als ein Modell, das keine unabhängigen Variablen enthält. Im Wesentlichen wird geprüft, ob das gesamte Regressionsmodell nützlich ist.
p-Wert: Dies ist der p-Wert, der der F-Statistik entspricht. Wenn dieser Wert unter einem bestimmten Signifikanzniveau liegt (z. B. 0,05), passt das Regressionsmodell besser zu den Daten als ein Modell ohne Prädiktoren.
Wir hoffen, dass dieser p-Wert beim Erstellen von Regressionsmodellen unter einem bestimmten Signifikanzniveau liegt, da dies darauf hinweist, dass die Prädiktorvariablen tatsächlich zur Vorhersage des Werts der Antwortvariablen nützlich sind.
So führen Sie eine mehrfache lineare Regression in R durch
Was ist ein guter R-Quadrat-Wert?
Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
Die logistische Regression ist eine statistische Methode, die wir verwenden, um ein Regressionsmodell anzupassen, wenn die Antwortvariable binär ist.
Um zu beurteilen, wie gut ein logistisches Regressionsmodell zu einem Datensatz …