Regressionskoeffizienten interpretieren

In der Statistik ist die Regressionsanalyse eine Technik, die verwendet werden kann, um die Beziehung zwischen Prädiktorvariablen und einer Antwortvariablen zu analysieren. Wenn Sie Software (wie R, Stata, SPSS usw.) verwenden, um eine Regressionsanalyse durchzuführen, erhalten Sie als Ausgabe eine Regressionstabelle, die die Ergebnisse der Regression zusammenfasst.

Die wohl wichtigsten Zahlen in der Ausgabe der Regressionstabelle sind die Regressionskoeffizienten. Trotz ihrer Bedeutung fällt es vielen Menschen jedoch schwer, diese Zahlen richtig zu interpretieren.

Dieses Tutorial führt ein Beispiel für eine Regressionsanalyse durch und bietet eine ausführliche Erklärung zur Interpretation der Regressionskoeffizienten, die sich aus der Regression ergeben.

Ein Beispiel für eine Regressionsanalyse

Angenommen, wir möchten eine Regressionsanalyse mit den folgenden Variablen durchführen:

Vorhersagevariablen

Gesamtzahl der studierten Stunden ( kontinuierliche Variable – zwischen 0 und 20 )
Ob ein Schüler einen Tutor verwendet hat oder nicht ( kategoriale Variable – „ja“ oder „nein“ )

Antwortvariable

Prüfungsergebnis (c ontinuierliche variabel - zwischen 1 und 100)

Wir sind daran interessiert, die Beziehung zwischen den Prädiktorvariablen und der Antwortvariablen zu untersuchen, um herauszufinden, ob die Unterrichtsstunden und ob ein Schüler einen Tutor in Anspruch genommen hat oder nicht, einen signifikanten Einfluss auf sein Prüfungsergebnis haben.

Angenommen, wir führen eine Regressionsanalyse durch und erhalten die folgende Ausgabe:

Variable	Koeffizient	Standardfehlder	t Stat	P-Wert
Intercept	48.56	14.32	3.39	0.002
Hours studied	2.03	0.67	3.03	0.009
Tutor	8.34	5.68	1.47	0.138

Sehen wir uns an, wie die einzelnen Regressionskoeffizienten zu interpretieren sind.

Interpretieren des Achsenabschnitts

Der Achsenabschnitt in einer Regressionstabelle gibt uns den durchschnittlichen erwarteten Wert für die Antwortvariable an, wenn alle Prädiktorvariablen gleich Null sind.

In diesem Beispiel beträgt der Regressionskoeffizient für den Achsenabschnitt 48,56. Dies bedeutet, dass für einen Schüler, der null Stunden studiert hat ( Hours Studied = 0) und keinen Tutor verwendet hat ( Tutor = 0), die durchschnittliche erwartete Prüfungspunktzahl 48,56 beträgt.

Es ist wichtig zu beachten, dass der Regressionskoeffizient für den Achsenabschnitt nur dann aussagekräftig ist, wenn es vernünftig ist, dass alle Prädiktorvariablen im Modell tatsächlich gleich Null sein können. In diesem Beispiel ist es durchaus möglich, dass ein Student null Stunden studiert hat ( Hours Studied = 0) und auch keinen Tutor benutzt hat ( Tutor = 0). Somit ist die Interpretation für den Regressionskoeffizienten des Achsenabschnitts in diesem Beispiel sinnvoll.

In einigen Fällen ist der Regressionskoeffizient für den Achsenabschnitt jedoch nicht aussagekräftig. Angenommen, wir führen eine Regressionsanalyse mit Quadratmetern als Prädiktorvariable und dem Hauswert als Antwortvariable durch. In der Ausgaberegressionstabelle hätte der Regressionskoeffizient für den Achsenabschnitt keine sinnvolle Interpretation, da die Quadratmeterzahl eines Hauses niemals gleich Null sein kann. In diesem Fall verankert der Regressionskoeffizient für den Achsenabschnittsterm einfach die Regressionsgerade an der richtigen Stelle.

Interpretieren des Koeffizienten einer kontinuierlichen Prädiktorvariablen

Für eine kontinuierliche Prädiktorvariable stellt der Regressionskoeffizient die Differenz des vorhergesagten Wertes der Antwortvariablen für jede Änderung der Prädiktorvariablen um eine Einheit dar, unter der Annahme, dass alle anderen Prädiktorvariablen konstant gehalten werden.

In diesem Beispiel ist die Hours studied eine kontinuierliche Prädiktorvariable, die von 0 bis 20 Stunden reicht. In einigen Fällen lernte ein Student nur null Stunden und in anderen Fällen sogar 20 Stunden.

Aus der Regressionsausgabe können wir sehen, dass der Regressionskoeffizient für die Hours Studied 2,03 beträgt. Dies bedeutet, dass im Durchschnitt jede zusätzlich Lernstunde mit einem Plus von 2,03 Punkten in der Abschlussprüfung verbunden ist, wenn die Prädiktorvariable Tutor konstant gehalten wird.

Betrachten Sie zum Beispiel Schüler A, der 10 Stunden lang studiert und einen Tutor verwendet. Denken Sie auch an Schüler B, der 11 Stunden lang studiert und auch einen Tutor verwendet. Gemäß unserer Regressionsausgabe wird erwartet, dass Schüler A eine 2,03 Punkte höhere Prüfungsnote als Schüler B erhält.

Der p-Wert aus der Regressionstabelle sagt uns, ob dieser Regressionskoeffizient tatsächlich statistisch signifikant ist oder nicht. Wir können sehen, dass der p-Wert für Hours Studied 0,009 beträgt, was bei einem Alpha-Niveau von 0,05 statistisch signifikant ist.

Hinweis: Das Alpha-Niveau sollte vor der Durchführung der Regressionsanalyse ausgewählt werden – gängige Auswahlmöglichkeiten für das Alpha-Niveau sind 0,01, 0,05 und 0,10.

Interpretieren des Koeffizienten einer kategorialen Prädiktorvariablen

Bei einer kategorialen Prädiktorvariablen repräsentiert der Regressionskoeffizient die Differenz des vorhergesagten Wertes der Antwortvariablen zwischen der Kategorie, für die die Prädiktorvariable = 0 ist, und der Kategorie, für die die Prädiktorvariable = 1 ist.

In diesem Beispiel ist Tutor eine kategoriale Prädiktorvariable, die zwei verschiedene Werte annehmen kann:

1 = der Student hat einen Tutor zur Vorbereitung auf die Prüfung verwendet
0 = der Student hat keinen Tutor zur Prüfungsvorbereitung eingesetzt

Aus der Regressionsausgabe können wir sehen, dass der Regressionskoeffizient für Tutor 8,34 beträgt. Dies bedeutet, dass ein Schüler, der einen Tutor in Anspruch genommen hat, im Durchschnitt 8,34 Punkte besser in der Prüfung abschneidet als ein Schüler, der keinen Tutor verwendet, wenn die Prädiktorvariable Hours Studied konstant gehalten wird.

Betrachten Sie zum Beispiel Schüler A, der 10 Stunden lang studiert und einen Tutor verwendet. Berücksichtigen Sie auch Schüler B, der 10 Stunden studiert und keinen Tutor verwendet. Laut unserer Regressionsausgabe wird erwartet, dass Schüler A eine Prüfungsnote erhält, die um 8,34 Punkte höher ist als die von Schüler B.

Der p-Wert aus der Regressionstabelle sagt uns, ob dieser Regressionskoeffizient tatsächlich statistisch signifikant ist oder nicht. Wir sehen, dass der p-Wert für Tutor 0,138 beträgt, was bei einem Alpha-Niveau von 0,05 statistisch nicht signifikant ist. Dies deutet darauf hin, dass Schüler, die einen Tutor benutzten, bei der Prüfung bessere Ergebnisse erzielten, dieser Unterschied jedoch auf zufällige Zufälle zurückzuführen sein könnte.

Interpretieren aller Koeffizienten auf einmal

Wir können alle Koeffizienten in der Regressionstabelle verwenden, um die folgende geschätzte Regressionsgleichung zu erstellen:

Erwartete Prüfungsnote = 48,56 + 2,03* (Studienstunden) + 8,34* (Tutor)

Hinweis : Beachten Sie, dass die Prädiktorvariable „Tutor“ auf Alpha-Stufe 0,05 statistisch nicht signifikant war. Sie können diesen Prädiktor daher aus dem Modell entfernen und nicht in der endgültigen geschätzten Regressionsgleichung verwenden.

Mit dieser geschätzten Regressionsgleichung können wir die Abschlussnote eines Schülers basierend auf seiner Gesamtzahl der gelernten Stunden und der Tatsache, ob er einen Tutor verwendet hat, vorhersagen.

Zum Beispiel wird von einem Schüler, der 10 Stunden gelernt und einen Tutor verwendet hat, erwartet, dass er eine Prüfungspunktzahl von:

Erwartetes Prüfungsergebnis = 48,56 + 2,03*(10) + 8,34*(1) = 77,2

Berücksichtigung der Korrelation bei der Interpretation von Regressionskoeffizienten

Beachten Sie, dass sich Prädiktorvariablen in einem Regressionsmodell gegenseitig beeinflussen können. Zum Beispiel werden die meisten Prädiktorvariablen zumindest in gewisser Weise miteinander verwandt sein (z. B. wird ein Student, der mehr studiert, wahrscheinlich auch eher einen Tutor benutzen).

Dies bedeutet, dass sich die Regressionskoeffizienten ändern, wenn verschiedene Vorhersagevariablen zum Modell hinzugefügt oder daraus entfernt werden.

Eine gute Methode, um festzustellen, ob die Korrelation zwischen Prädiktorvariablen stark genug ist, um das Regressionsmodell ernsthaft zu beeinflussen, besteht darin, den VIF zwischen den Prädiktorvariablen zu überprüfen. Dadurch erfahren Sie, ob die Korrelation zwischen Prädiktorvariablen ein Problem ist, das angegangen werden sollte, bevor Sie sich entscheiden, die Regressionskoeffizienten zu interpretieren.

Wenn Sie ein einfaches lineares Regressionsmodell mit nur einem Prädiktor ausführen, stellen korrelierte Prädiktorvariablen kein Problem dar.

Ein Beispiel für eine Regressionsanalyse

Interpretieren des Achsenabschnitts

Interpretieren des Koeffizienten einer kontinuierlichen Prädiktorvariablen

Interpretieren des Koeffizienten einer kategorialen Prädiktorvariablen

Interpretieren aller Koeffizienten auf einmal

Berücksichtigung der Korrelation bei der Interpretation von Regressionskoeffizienten

Statistik: Der Weg zur Datenanalyse

So berechnen Sie AIC von Regressionsmodellen in Python

So berechnen Sie die AUC (Fläche unter der Kurve) in Python