Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
- K: Die Anzahl der Modellparameter …
In der Statistik ist die Regressionsanalyse eine Technik, die verwendet werden kann, um die Beziehung zwischen Prädiktorvariablen und einer Antwortvariablen zu analysieren. Wenn Sie Software (wie R, Stata, SPSS usw.) verwenden, um eine Regressionsanalyse durchzuführen, erhalten Sie als Ausgabe eine Regressionstabelle, die die Ergebnisse der Regression zusammenfasst.
Die wohl wichtigsten Zahlen in der Ausgabe der Regressionstabelle sind die Regressionskoeffizienten. Trotz ihrer Bedeutung fällt es vielen Menschen jedoch schwer, diese Zahlen richtig zu interpretieren.
Dieses Tutorial führt ein Beispiel für eine Regressionsanalyse durch und bietet eine ausführliche Erklärung zur Interpretation der Regressionskoeffizienten, die sich aus der Regression ergeben.
Verwandter Beitrag: So lesen und interpretieren Sie eine gesamte Regressionstabelle
Angenommen, wir möchten eine Regressionsanalyse mit den folgenden Variablen durchführen:
Vorhersagevariablen
Antwortvariable
Wir sind daran interessiert, die Beziehung zwischen den Prädiktorvariablen und der Antwortvariablen zu untersuchen, um herauszufinden, ob die Unterrichtsstunden und ob ein Schüler einen Tutor in Anspruch genommen hat oder nicht, einen signifikanten Einfluss auf sein Prüfungsergebnis haben.
Angenommen, wir führen eine Regressionsanalyse durch und erhalten die folgende Ausgabe:
Variable | Koeffizient | Standardfehlder | t Stat | P-Wert |
---|---|---|---|---|
Intercept | 48.56 | 14.32 | 3.39 | 0.002 |
Hours studied | 2.03 | 0.67 | 3.03 | 0.009 |
Tutor | 8.34 | 5.68 | 1.47 | 0.138 |
Sehen wir uns an, wie die einzelnen Regressionskoeffizienten zu interpretieren sind.
Der Achsenabschnitt in einer Regressionstabelle gibt uns den durchschnittlichen erwarteten Wert für die Antwortvariable an, wenn alle Prädiktorvariablen gleich Null sind.
In diesem Beispiel beträgt der Regressionskoeffizient für den Achsenabschnitt 48,56. Dies bedeutet, dass für einen Schüler, der null Stunden studiert hat ( Hours Studied = 0) und keinen Tutor verwendet hat ( Tutor = 0), die durchschnittliche erwartete Prüfungspunktzahl 48,56 beträgt.
Es ist wichtig zu beachten, dass der Regressionskoeffizient für den Achsenabschnitt nur dann aussagekräftig ist, wenn es vernünftig ist, dass alle Prädiktorvariablen im Modell tatsächlich gleich Null sein können. In diesem Beispiel ist es durchaus möglich, dass ein Student null Stunden studiert hat ( Hours Studied = 0) und auch keinen Tutor benutzt hat ( Tutor = 0). Somit ist die Interpretation für den Regressionskoeffizienten des Achsenabschnitts in diesem Beispiel sinnvoll.
In einigen Fällen ist der Regressionskoeffizient für den Achsenabschnitt jedoch nicht aussagekräftig. Angenommen, wir führen eine Regressionsanalyse mit Quadratmetern als Prädiktorvariable und dem Hauswert als Antwortvariable durch. In der Ausgaberegressionstabelle hätte der Regressionskoeffizient für den Achsenabschnitt keine sinnvolle Interpretation, da die Quadratmeterzahl eines Hauses niemals gleich Null sein kann. In diesem Fall verankert der Regressionskoeffizient für den Achsenabschnittsterm einfach die Regressionsgerade an der richtigen Stelle.
Für eine kontinuierliche Prädiktorvariable stellt der Regressionskoeffizient die Differenz des vorhergesagten Wertes der Antwortvariablen für jede Änderung der Prädiktorvariablen um eine Einheit dar, unter der Annahme, dass alle anderen Prädiktorvariablen konstant gehalten werden.
In diesem Beispiel ist die Hours studied eine kontinuierliche Prädiktorvariable, die von 0 bis 20 Stunden reicht. In einigen Fällen lernte ein Student nur null Stunden und in anderen Fällen sogar 20 Stunden.
Aus der Regressionsausgabe können wir sehen, dass der Regressionskoeffizient für die Hours Studied 2,03 beträgt. Dies bedeutet, dass im Durchschnitt jede zusätzlich Lernstunde mit einem Plus von 2,03 Punkten in der Abschlussprüfung verbunden ist, wenn die Prädiktorvariable Tutor konstant gehalten wird.
Betrachten Sie zum Beispiel Schüler A, der 10 Stunden lang studiert und einen Tutor verwendet. Denken Sie auch an Schüler B, der 11 Stunden lang studiert und auch einen Tutor verwendet. Gemäß unserer Regressionsausgabe wird erwartet, dass Schüler A eine 2,03 Punkte höhere Prüfungsnote als Schüler B erhält.
Der p-Wert aus der Regressionstabelle sagt uns, ob dieser Regressionskoeffizient tatsächlich statistisch signifikant ist oder nicht. Wir können sehen, dass der p-Wert für Hours Studied 0,009 beträgt, was bei einem Alpha-Niveau von 0,05 statistisch signifikant ist.
Hinweis: Das Alpha-Niveau sollte vor der Durchführung der Regressionsanalyse ausgewählt werden – gängige Auswahlmöglichkeiten für das Alpha-Niveau sind 0,01, 0,05 und 0,10.
Verwandter Beitrag: Eine Erklärung von P-Werten und statistischer Signifikanz
Bei einer kategorialen Prädiktorvariablen repräsentiert der Regressionskoeffizient die Differenz des vorhergesagten Wertes der Antwortvariablen zwischen der Kategorie, für die die Prädiktorvariable = 0 ist, und der Kategorie, für die die Prädiktorvariable = 1 ist.
In diesem Beispiel ist Tutor eine kategoriale Prädiktorvariable, die zwei verschiedene Werte annehmen kann:
Aus der Regressionsausgabe können wir sehen, dass der Regressionskoeffizient für Tutor 8,34 beträgt. Dies bedeutet, dass ein Schüler, der einen Tutor in Anspruch genommen hat, im Durchschnitt 8,34 Punkte besser in der Prüfung abschneidet als ein Schüler, der keinen Tutor verwendet, wenn die Prädiktorvariable Hours Studied konstant gehalten wird.
Betrachten Sie zum Beispiel Schüler A, der 10 Stunden lang studiert und einen Tutor verwendet. Berücksichtigen Sie auch Schüler B, der 10 Stunden studiert und keinen Tutor verwendet. Laut unserer Regressionsausgabe wird erwartet, dass Schüler A eine Prüfungsnote erhält, die um 8,34 Punkte höher ist als die von Schüler B.
Der p-Wert aus der Regressionstabelle sagt uns, ob dieser Regressionskoeffizient tatsächlich statistisch signifikant ist oder nicht. Wir sehen, dass der p-Wert für Tutor 0,138 beträgt, was bei einem Alpha-Niveau von 0,05 statistisch nicht signifikant ist. Dies deutet darauf hin, dass Schüler, die einen Tutor benutzten, bei der Prüfung bessere Ergebnisse erzielten, dieser Unterschied jedoch auf zufällige Zufälle zurückzuführen sein könnte.
Wir können alle Koeffizienten in der Regressionstabelle verwenden, um die folgende geschätzte Regressionsgleichung zu erstellen:
Erwartete Prüfungsnote = 48,56 + 2,03* (Studienstunden) + 8,34* (Tutor)
Hinweis* :* Beachten Sie, dass die Prädiktorvariable „Tutor“ auf Alpha-Stufe 0,05 statistisch nicht signifikant war. Sie können diesen Prädiktor daher aus dem Modell entfernen und nicht in der endgültigen geschätzten Regressionsgleichung verwenden.
Mit dieser geschätzten Regressionsgleichung können wir die Abschlussnote eines Schülers basierend auf seiner Gesamtzahl der gelernten Stunden und der Tatsache, ob er einen Tutor verwendet hat, vorhersagen.
Zum Beispiel wird von einem Schüler, der 10 Stunden gelernt und einen Tutor verwendet hat, erwartet, dass er eine Prüfungspunktzahl von:
Erwartetes Prüfungsergebnis = 48,56 + 2,03*(10) + 8,34*(1) = 77,2
Beachten Sie, dass sich Prädiktorvariablen in einem Regressionsmodell gegenseitig beeinflussen können. Zum Beispiel werden die meisten Prädiktorvariablen zumindest in gewisser Weise miteinander verwandt sein (z. B. wird ein Student, der mehr studiert, wahrscheinlich auch eher einen Tutor benutzen).
Dies bedeutet, dass sich die Regressionskoeffizienten ändern, wenn verschiedene Vorhersagevariablen zum Modell hinzugefügt oder daraus entfernt werden.
Eine gute Methode, um festzustellen, ob die Korrelation zwischen Prädiktorvariablen stark genug ist, um das Regressionsmodell ernsthaft zu beeinflussen, besteht darin, den VIF zwischen den Prädiktorvariablen zu überprüfen. Dadurch erfahren Sie, ob die Korrelation zwischen Prädiktorvariablen ein Problem ist, das angegangen werden sollte, bevor Sie sich entscheiden, die Regressionskoeffizienten zu interpretieren.
Wenn Sie ein einfaches lineares Regressionsmodell mit nur einem Prädiktor ausführen, stellen korrelierte Prädiktorvariablen kein Problem dar.
Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
Die logistische Regression ist eine statistische Methode, die wir verwenden, um ein Regressionsmodell anzupassen, wenn die Antwortvariable binär ist.
Um zu beurteilen, wie gut ein logistisches Regressionsmodell zu einem Datensatz …