Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
- K: Die Anzahl der Modellparameter …
R-Quadrat, oft R 2 geschrieben, ist der Anteil der Varianz in der Antwortvariablen, der durch die Prädiktorvariablen in einem linearen Regressionsmodell erklärt werden kann.
Der Wert für das R-Quadrat kann im Bereich von 0 bis 1 liegen. Ein Wert von 0 zeigt an, dass die Antwortvariable überhaupt nicht durch die Prädiktorvariable erklärt werden kann, während ein Wert von 1 angibt, dass die Antwortvariable vom Prädiktor fehlerfrei erklärt werden kann Variablen.
Das angepasste R-Quadrat ist eine modifizierte Version des R-Quadrats, die sich an die Anzahl der Prädiktoren in einem Regressionsmodell anpasst. Es wird berechnet als:
Angepasstes R2 = 1 - [(1-R 2 ) * (n-1) / (nk-1)]
wo:
Da R 2 immer zunimmt, wenn Sie einem Modell mehr Prädiktoren hinzufügen, kann das angepasste R 2 als Metrik dienen, die angibt, wie nützlich ein Modell ist, angepasst an die Anzahl der Prädiktoren in einem Modell.
Dieses Tutorial zeigt zwei Beispiele für die Berechnung des angepassten R 2 für ein Regressionsmodell in Python.
Verwandt: Was ist ein guter R-Quadrat-Wert?
Der folgende Code zeigt, wie ein multiples lineares Regressionsmodell angepasst und das angepasste R-Quadrat des Modells mit sklearn berechnet wird:
from sklearn.linear_model import LinearRegression
import pandas as pd
# URL definieren, unter der sich das Dataset befindet
url = "https://raw.githubusercontent.com/Statology/Python-Guides/main/mtcars.csv"
# Daten lesen
data = pd.read_csv(url)
# Regressionsmodell anpassen
model = LinearRegression()
X, y = data[["mpg", "wt", "drat", "qsec"]], data.hp
model.fit(X, y)
# angepasstes R-Quadrat anzeigen
1 - (1-model.score(X, y))*(len(y)-1)/(len(y)-X.shape[1]-1)
0.7787005290062521
Das angepasste R-Quadrat des Modells beträgt 0,7787.
Der folgende Code zeigt, wie ein Modell mit mehreren linearen Regressionen angepasst und das angepasste R-Quadrat des Modells mithilfe von statsmodels berechnet wird:
import statsmodels.api as sm
import pandas as pd
# URL definieren, unter der sich das Dataset befindet
url = "https://raw.githubusercontent.com/Statology/Python-Guides/main/mtcars.csv"
# Daten lesen
data = pd.read_csv(url)
# Regressionsmodell anpassen
X, y = data[["mpg", "wt", "drat", "qsec"]], data.hp
X = sm.add_constant(X)
model = sm.OLS(y, X).fit()
# angepasstes R-Quadrat anzeigen
print(model.rsquared_adj)
0.7787005290062521
Das angepasste R-Quadrat des Modells beträgt 0,7787, was dem Ergebnis des vorherigen Beispiels entspricht.
Einführung in die einfache lineare Regression
Einführung in die multiple lineare Regression
Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
Die logistische Regression ist eine statistische Methode, die wir verwenden, um ein Regressionsmodell anzupassen, wenn die Antwortvariable binär ist.
Um zu beurteilen, wie gut ein logistisches Regressionsmodell zu einem Datensatz …