Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
- K: Die Anzahl der Modellparameter …
In der Statistik ist die Regressionsanalyse eine Technik, mit der die Beziehung zwischen Prädiktorvariablen und einer Antwortvariablen analysiert werden kann. Wenn Sie eine Regressionsanalyse mit Software (wie R, Stata, SPSS usw.) durchführen, erhalten Sie als Ausgabe eine Regressionstabelle, in der die Ergebnisse der Regression zusammengefasst sind.
Die wohl wichtigsten Zahlen in der Ausgabe der Regressionstabelle sind die Regressionskoeffizienten. Trotz ihrer Bedeutung fällt es vielen Menschen schwer, diese Zahlen richtig zu interpretieren.
Dieses Tutorial führt Sie durch ein Beispiel einer Regressionsanalyse und bietet eine ausführliche Erläuterung zur Interpretation der Regressionskoeffizienten, die sich aus der Regression ergeben.
In Verbindung stehender Beitrag: Lesen und Interpretieren einer gesamten Regressionstabelle
Angenommen, wir möchten eine Regressionsanalyse mit den folgenden Variablen durchführen:
Prädiktorvariablen
Antwortvariable
Wir sind daran interessiert, die Beziehung zwischen den Prädiktorvariablen und der Antwortvariablen zu untersuchen, um herauszufinden, ob die untersuchten Stunden und ob ein Schüler einen Tutor verwendet hat oder nicht, einen bedeutenden Einfluss auf die Prüfungsergebnisse haben.
Angenommen, wir führen eine Regressionsanalyse durch und erhalten die folgende Ausgabe:
Begriff | Koeffizient | Standardfehler | t Stat | P-Wert |
---|---|---|---|---|
Intercept | 48,56 | 14.32 | 3.39 | 0,002 |
Hours studied | 2,03 | 0,67 | 3.03 | 0,009 |
Tutor | 8.34 | 5.68 | 1,47 | 0,138 |
Lassen Sie uns einen Blick darauf werfen, wie jeder Regressionskoeffizient interpretiert wird.
Der Intercept Begriff in einer Regressionstabelle gibt den durchschnittlichen erwarteten Wert für die Antwortvariable an, wenn alle Prädiktorvariablen gleich Null sind. Er entspricht dem y-Achsenabschnitt bei x=0.
In diesem Beispiel beträgt der Regressionskoeffizient für den Intercept 48,56. Dies bedeutet, dass für einen Studenten, der null Stunden studiert hat ( Hours studied = 0) und keinen Tutor verwendet hat ( Tutor = 0), die durchschnittliche erwartete Prüfungspunktzahl 48,56 beträgt.
Es ist wichtig zu beachten, dass der Regressionskoeffizient für den Intercept nur dann von Bedeutung ist, wenn es vernünftig ist, dass alle Prädiktorvariablen im Modell tatsächlich gleich Null sein können. In diesem Beispiel ist es durchaus möglich, dass ein Schüler null Stunden studiert hat ( Hours studied = 0) und auch keinen Tutor verwendet hat ( Tutor = 0). Daher ist die Interpretation für den Regressionskoeffizienten des Intercepts in diesem Beispiel sinnvoll.
In einigen Fällen ist der Regressionskoeffizient für den Intercept jedoch nicht aussagekräftig. Angenommen, wir haben eine Regressionsanalyse durchgeführt, bei der Quadratmeterzahl als Prädiktorvariable und Hauswert als Antwortvariable verwendet wurden. In der Ausgabe-Regressionstabelle hätte der Regressionskoeffizient für den Intercept-Term keine aussagekräftige Interpretation, da die Quadratmeterzahl eines Hauses niemals gleich Null sein kann. In diesem Fall verankert der Regressionskoeffizient für den Intercept-Term einfach die Regressionslinie an der richtigen Stelle.
Für eine kontinuierliche Prädiktorvariable repräsentiert der Regressionskoeffizient die Differenz des vorhergesagten Werts der Antwortvariablen für jede Änderung der Prädiktorvariablen um eine Einheit, vorausgesetzt, alle anderen Prädiktorvariablen werden konstant gehalten.
In diesem Beispiel ist hours studied eine kontinuierliche Prädiktorvariable im Bereich von 0 bis 20 Stunden. In einigen Fällen lernte ein Schüler nur null Stunden und in anderen Fällen bis zu 20 Stunden.
Aus der Regressionsausgabe können wir ersehen, dass der Regressionskoeffizient für hours studied 2,03 beträgt. Dies bedeutet, dass durchschnittlich jede weitere untersuchte Stunde mit einem Anstieg von 2,03 Punkten bei der Abschlussprüfung verbunden ist, vorausgesetzt, die Prädiktorvariable Tutor wird konstant gehalten.
Stellen Sie sich zum Beispiel Schüler A vor, der 10 Stunden studiert und einen Tutor verwendet. Denken Sie auch an Schüler B, der 11 Stunden studiert und auch einen Tutor einsetzt. Gemäß unserer Regressionsausgabe wird von Schüler A eine Prüfungspunktzahl erwartet, die 2,03 Punkte höher ist als von Schüler B.
Der p-Wert aus der Regressionstabelle gibt Auskunft darüber, ob dieser Regressionskoeffizient tatsächlich statistisch signifikant ist oder nicht. Wir können sehen, dass der p-Wert für hours studied 0,009 beträgt, was bei einem Alpha-Wert von 0,05 statistisch signifikant ist.
Hinweis: Der Alpha-Wert sollte ausgewählt werden, bevor die Regressionsanalyse durchgeführt wird. Übliche Auswahlmöglichkeiten für die Alpha-Stufe sind 0,01, 0,05 und 0,10.
In Verbindung stehender Beitrag: Eine Erklärung der P-Werte und der statistischen Signifikanz
Für eine kategoriale Prädiktorvariable repräsentiert der Regressionskoeffizient die Differenz im vorhergesagten Wert der Antwortvariablen zwischen der Kategorie, für die die Prädiktorvariable = 0 ist, und der Kategorie, für die die Prädiktorvariable = 1 ist.
In diesem Beispiel ist Tutor eine kategoriale Prädiktorvariable, die zwei verschiedene Werte annehmen kann:
Aus der Regressionsausgabe können wir ersehen, dass der Regressionskoeffizient für Tutor 8,34 beträgt. Dies bedeutet, dass ein Schüler, der einen Tutor verwendet hat, im Durchschnitt 8,34 Punkte mehr in der Prüfung erzielt als ein Schüler, der keinen Tutor verwendet hat, vorausgesetzt, die Prädiktorvariable hours studied wird konstant gehalten.
Stellen Sie sich zum Beispiel Schüler A vor, der 10 Stunden studiert und einen Tutor verwendet. Denken Sie auch an Schüler B, der 10 Stunden studiert und keinen Tutor verwendet. Gemäß unserer Regressionsausgabe wird von Schüler A erwartet, dass er eine Prüfungsnote erhält, die 8,34 Punkte höher ist als von Schüler B.
Der p-Wert aus der Regressionstabelle gibt Auskunft darüber, ob dieser Regressionskoeffizient tatsächlich statistisch signifikant ist oder nicht. Wir können sehen, dass der p-Wert für Tutor 0,138 beträgt, was bei einem Alpha-Level von 0,05 statistisch nicht signifikant ist. Dies weist darauf hin, dass Schüler, die einen Tutor eingesetzt haben, bei der Prüfung zwar eine höhere Punktzahl erzielt haben, dieser Unterschied jedoch möglicherweise auf zufällige Zufälle zurückzuführen ist.
Wir können alle Koeffizienten in der Regressionstabelle verwenden, um die folgende geschätzte Regressionsgleichung zu erstellen:
Erwartete Prüfungspunktzahl = 48,56 + 2,03 * (hours studied) + 8,34 * (Tutor)
Hinweis: Beachten Sie, dass die Prädiktorvariable „Tutor“ bei Alpha-Wert 0,05 statistisch nicht signifikant war. Sie können diesen Prädiktor daher möglicherweise aus dem Modell entfernen und in der endgültigen geschätzten Regressionsgleichung nicht verwenden.*
Mithilfe dieser geschätzten Regressionsgleichung können wir die endgültige Prüfungsbewertung eines Schülers basierend auf seiner Gesamtstundenzahl und der Frage, ob er einen Tutor verwendet hat oder nicht, vorhersagen.
Zum Beispiel wird von einem Studenten, der 10 Stunden lang studiert und einen Tutor eingesetzt hat, erwartet, dass er folgende Prüfungsnote erhält:
Erwartete Prüfungspunktzahl = 48,56 + 2,03 * (10) + 8,34 * (1) = 77,2
Es ist wichtig zu beachten, dass sich Prädiktorvariablen in einem Regressionsmodell gegenseitig beeinflussen können. Zum Beispiel werden die meisten Prädiktorvariablen zumindest etwas miteinander verwandt sein (z. B. verwendet ein Student, der mehr studiert, wahrscheinlich auch eher einen Tutor).
Dies bedeutet, dass sich die Regressionskoeffizienten ändern, wenn verschiedene Vorhersagevariablen zum Modell hinzugefügt oder daraus entfernt werden.
Ein guter Weg, um festzustellen, ob die Korrelation zwischen Prädiktorvariablen schwerwiegend genug ist, um das Regressionsmodell ernsthaft zu beeinflussen, besteht darin die Multikollinearität zwischen den Prädiktorvariablen zu überprüfen. Hier erfahren Sie, ob die Korrelation zwischen Prädiktorvariablen ein Problem darstellt, das behoben werden sollte, bevor Sie sich für die Interpretation der Regressionskoeffizienten entscheiden.
Wenn Sie ein einfaches lineares Regressionsmodell mit nur einem Prädiktor ausführen, sind korrelierte Prädiktorvariablen kein Problem.
Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
Die logistische Regression ist eine statistische Methode, die wir verwenden, um ein Regressionsmodell anzupassen, wenn die Antwortvariable binär ist.
Um zu beurteilen, wie gut ein logistisches Regressionsmodell zu einem Datensatz …