Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
- K: Die Anzahl der Modellparameter …
Angenommen, wir haben den folgenden Datensatz, der die Fläche und den Preis von 12 verschiedenen Häusern zeigt:
Wir möchten wissen, ob es einen signifikanten Zusammenhang zwischen der Fläche und dem Preis gibt. Um eine Vorstellung davon zu bekommen, wie die Daten aussehen, erstellen wir zunächst ein Streudiagramm mit Fläche auf der x-Achse und Preis auf der y-Achse:
Wir können deutlich sehen, dass es eine positive Korrelation zwischen Fläche und Preis gibt. Mit steigenden Quadratmetern steigt auch der Preis des Hauses.
Um jedoch zu wissen, ob es eine statistisch signifikante Beziehung zwischen Fläche und Preis gibt, müssen wir eine einfache lineare Regression durchführen.
Wir führen also eine einfache lineare Regression mit Quadratfuß als Prädiktor und Preis als Antwort durch und erhalten die folgende Ausgabe:
Unabhängig davon, ob Sie eine einfache lineare Regression in Excel, SPSS, R oder einer anderen Software ausführen, erhalten Sie eine ähnliche Ausgabe wie oben gezeigt.
Denken Sie daran, dass eine einfache lineare Regression die Linie mit der besten Anpassung ergibt. Dies ist die Gleichung für die Linie, die am besten zu den Daten in unserem Streudiagramm passt. Diese Linie der besten Anpassung ist definiert als:
ŷ = b 0 + b 1 x
Dabei ist ŷ der vorhergesagte Wert der Antwortvariablen, b0 der y-Achsenabschnitt, b1 der Regressionskoeffizient und x der Wert der Prädiktorvariablen.
Der Wert für b0 ergibt sich aus dem Koeffizienten für den Achsenabschnitt, der 47588,70 beträgt .
Der Wert für b1 ergibt sich aus dem Koeffizienten für die Prädiktorvariable Square Feet, der 93,57 beträgt .
Daher ist die Linie der besten Anpassung in diesem Beispiel ŷ = 47588,70+ 93,57x
So interpretieren Sie diese Linie der besten Anpassung:
Jetzt wissen wir also, dass für jede weitere Flächeneinheit der durchschnittliche erwartete Preisanstieg 93,57 USD beträgt. Um herauszufinden, ob dieser Anstieg statistisch signifikant ist, müssen wir einen Hypothesentest für B1 durchführen oder ein Konfidenzintervall für B1 erstellen.
Hinweis: Ein Hypothesentest und ein Konfidenzintervall führen immer zu denselben Ergebnissen.
Um ein Konfidenzintervall für eine Regressionssteigung zu erstellen, verwenden wir die folgende Formel:
b 1 +/- (t 1-∝ / 2, n-2 ) * (Standardfehler von b1)
wobei:
In unserem Beispiel wird hier ein 95%-Konfidenzintervall für B1 erstellt:
Unser 95%-Konfidenzintervall für B1 lautet also:
93,57 +/- (2,228) * (11,45) = (68,06, 119,08)
Dies bedeutet, dass wir zu 95% davon überzeugt sind, dass der tatsächliche durchschnittliche Preisanstieg für jede weitere Flächeneinheit zwischen 68,06 USD und 119,08 USD liegt.
Beachten Sie, dass $0 nicht in diesem Intervall liegt, sodass die Beziehung zwischen Quadratfuß und Preis bei einem Konfidenzniveau von 95% statistisch signifikant ist.
Um einen Hypothesentest für eine Regressionssteigung durchzuführen, befolgen wir die fünf Standardschritte für jeden Hypothesentest :
Schritt 1. Geben Sie die Hypothesen an.
Die Nullhypothese (H0): B1 = 0
Die alternative Hypothese: (Ha): B1 ≠ 0
Schritt 2. Bestimmen Sie ein zu verwendendes Signifikanzniveau.
Da wir im vorherigen Beispiel ein 95%-Konfidenzintervall erstellt haben, verwenden wir hier den entsprechenden Ansatz und wählen ein Signifikanzniveau von 0,05.
Schritt 3. Finden Sie die Teststatistik und den entsprechenden p-Wert.
In diesem Fall ist die Teststatistik t = Koeffizient von b 1 / Standardfehler von b1 mit n-2 Freiheitsgraden. Wir können diese Werte aus der Regressionsausgabe finden:
Somit ist die Teststatistik t = 92,89 / 13,88 = 6,69.
Mit einem Score von 6,69 bei 10 Freiheitsgraden und einem zweiseitigen Test ist der p-Wert = 0,000.
Schritt 4. Die Nullhypothese ablehnen oder nicht ablehnen.
Da der p-Wert unter unserem Signifikanzniveau von 0,05 liegt, lehnen wir die Nullhypothese ab.
Schritt 5. Interpretieren Sie die Ergebnisse.
Da wir die Nullhypothese abgelehnt haben, haben wir genügend Beweise, um zu sagen, dass der wahre durchschnittliche Preisanstieg für jede zusätzliche Flächeneinheit (square feet) nicht Null ist.
Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
Die logistische Regression ist eine statistische Methode, die wir verwenden, um ein Regressionsmodell anzupassen, wenn die Antwortvariable binär ist.
Um zu beurteilen, wie gut ein logistisches Regressionsmodell zu einem Datensatz …