Durchführen einer multiplen linearen Regression in Excel

Die multiple lineare Regression ist eine Methode, mit der wir die Beziehung zwischen zwei oder mehr erklärenden Variablen und einer Antwortvariablen verstehen können.

In diesem Tutorial wird erklärt, wie Sie in Excel eine multiple lineare Regressionen durchführen.

Hinweis: Wenn Sie nur eine erklärende Variable haben, sollten Sie stattdessen eine einfache lineare Regression durchführen.

Beispiel: Multiple lineare Regression in Excel

Angenommen, wir möchten wissen, ob sich die Anzahl der Stunden des Studiums und die Anzahl der absolvierten Vorbereitungsprüfungen auf die Punktzahl auswirkt, die ein Student bei einer bestimmten College-Aufnahmeprüfung erhält.

Um diese Beziehung zu untersuchen, können wir multiple lineare Regressionen durchführen, indem wir die untersuchten Stunden (hours) und Vorbereitungsprüfungen (prep_exams) als erklärende Variablen und die Prüfungsergebnisse (score) als Antwortvariable verwenden.

Führen Sie die folgenden Schritte in Excel aus, um eine multiple lineare Regression durchzuführen.

Schritt 1: Geben Sie die Daten ein.

Geben Sie die folgenden Daten für die Anzahl der Stunden, die Vorbereitungsprüfungen und die Prüfungsergebnisse für 20 Studenten ein:

Schritt 2: Führen Sie eine multiple lineare Regression durch.

Wechseln Sie in Excel im oberen Menüband zur Registerkarte Daten und klicken Sie auf Datenanalyse. Wenn diese Option nicht angezeigt wird, müssen Sie zuerst das kostenlose Analysis ToolPak installieren.

Sobald Sie auf Datenanalyse klicken, wird ein neues Fenster geöffnet. Wählen Sie Regression und klicken Sie auf OK.

Geben Sie für den Input Y Range den Bereich von Werten für die Antwortvariable ein. Geben Sie für den Input X Range den Wertebereich für die beiden erklärenden Variablen ein. Aktivieren Sie das Kontrollkästchen neben Labels, damit Excel weiß, dass wir die Variablennamen in die Eingabebereiche aufgenommen haben. Wählen Sie als Output Range eine Zelle aus, in der die Ausgabe der Regression angezeigt werden soll. Klicken Sie dann auf OK.

Die folgende Ausgabe wird automatisch angezeigt:

Schritt 3: Interpretieren Sie die Ausgabe.

So interpretieren Sie die relevantesten Zahlen in der Ausgabe:

R Square: 0,734. Dies ist als Bestimmungskoeffizient bekannt. Es ist der Anteil der Varianz in der Antwortvariablen, der durch die erklärenden Variablen erklärt werden kann. In diesem Beispiel lassen sich 73,4% der Abweichungen in den Prüfungsergebnissen durch die Anzahl der untersuchten Stunden und die Anzahl der Vorbereitungsprüfungen erklären.

Standard Error: 5.366. Dies ist der durchschnittliche Abstand, um den die beobachteten Werte von der Regressionslinie fallen. In diesem Beispiel fallen die beobachteten Werte durchschnittlich um 5,366 Einheiten von der Regressionslinie ab.

F: 23,46. Dies ist die Gesamt-F-Statistik für das Regressionsmodell, berechnet als Regressions-MS / Residuen-MS.

Significance F: 0,0000. Dies ist der p-Wert, der der gesamten F-Statistik zugeordnet ist. Es zeigt uns, ob das Regressionsmodell insgesamt statistisch signifikant ist oder nicht. Mit anderen Worten, es sagt uns, ob die beiden erklärenden Variablen zusammen eine statistisch signifikante Assoziation mit der Antwortvariablen haben. In diesem Fall liegt der p-Wert unter 0,05, was darauf hinweist, dass die untersuchten erklärenden Variablen Stunden (hours) und Vorbereitungsprüfungen (prep_exams) zusammen einen statistisch signifikanten Zusammenhang mit dem Prüfungsergebnis (score) aufweisen.

P-value. Die einzelnen p-Werte geben Auskunft darüber, ob jede erklärende Variable statistisch signifikant ist oder nicht. Wir können sehen, dass die untersuchten Stunden statistisch signifikant sind (p = 0,00), während die Vorbereitungsprüfungen (p = 0,52) bei α = 0,05 statistisch nicht signifikant sind. Da die Vorbereitungsprüfungen statistisch nicht signifikant sind, entscheiden wir uns möglicherweise, sie aus dem Modell zu entfernen.

Coefficients: Die Koeffizienten für jede erklärende Variable geben die durchschnittliche erwartete Änderung der Antwortvariablen an, vorausgesetzt, die andere erklärende Variable bleibt konstant. Beispielsweise wird erwartet, dass sich die durchschnittliche Prüfungspunktzahl für jede weitere Unterrichtsstunde um 5,56 erhöht, vorausgesetzt, die Vorbereitungsprüfungen bleiben konstant.

Hier ist eine andere Art und Weise, darüber nachzudenken: Wenn Schüler A und Schüler B beide die gleiche Anzahl an Vorbereitungsprüfungen ablegen, Schüler A jedoch eine Stunde länger lernt, wird erwartet, dass Schüler A eine um 5,56 Punkte höhere Punktzahl als Schüler B erzielt.

Wir interpretieren den Koeffizienten für den Achsenabschnitt so, dass die erwartete Prüfungspunktzahl für einen Studenten, der null Stunden studiert und keine Vorbereitungsprüfungen ablegt, 67,67 beträgt.

Geschätzte Regressionsgleichung: Wir können die Koeffizienten aus der Ausgabe des Modells verwenden, um die folgende geschätzte Regressionsgleichung zu erstellen:

score = 67,67 + 5,56 * (hours) – 0,60 * (prep_exams)

Wir können diese geschätzte Regressionsgleichung verwenden, um die erwartete Prüfungspunktzahl für einen Schüler zu berechnen, basierend auf der Anzahl der Stunden, die er studiert, und der Anzahl der Vorbereitungsprüfungen, die er ablegt. Zum Beispiel wird von einem Studenten, der drei Stunden studiert und eine Vorbereitungsprüfung ablegt, eine Punktzahl von 83,75 erwartet:

score = 67,67 + 5,56 * (3) – 0,60 * (1) = 83,75

Beachten Sie, dass wir uns möglicherweise dafür entscheiden, diese zu entfernen, da die Vorbereitungsprüfungen statistisch nicht signifikant waren (p = 0,52), da sie das Gesamtmodell nicht verbessern. In diesem Fall könnten wir eine einfache lineare Regression durchführen, indem wir nur hours als erklärende Variable verwenden.

Die Ergebnisse dieser einfachen linearen Regressionsanalyse finden Sie hier.

Zusätzliche Ressourcen

Sobald Sie multiple lineare Regressionen durchgeführt haben, sollten Sie verschiedene Annahmen überprüfen, darunter:

Beispiel: Multiple lineare Regression in Excel

Zusätzliche Ressourcen

Statistik: Der Weg zur Datenanalyse

So berechnen Sie AIC von Regressionsmodellen in Python

So berechnen Sie die AUC (Fläche unter der Kurve) in Python