Die lineare Regression ist eine Methode, mit der die Beziehung zwischen einer oder mehreren erklärenden Variablen und einer Antwortvariablen quantifiziert werden kann.

Wir verwenden die einfache lineare Regression, wenn es nur eine erklärende Variable gibt, und die multiple lineare Regression, wenn es zwei oder mehr erklärende Variablen gibt.

Es ist möglich, beide Arten von Regressionen mit der LINEST()- Funktion in Google Tabellen durchzuführen, die die folgende Syntax verwendet:

LINEST(known_data_y, known_data_x, calculate_b, verbose)

wo:

  • known_data_y: Array von Antwortwerten
  • known_data_x: Array mit erklärenden Werten
  • calculate_b: Gibt an, ob der y-Achsenabschnitt berechnet werden soll oder nicht. Dies ist standardmäßig WAHR und wir belassen es bei der linearen Regression.
  • verbose: Gibt an, ob über die Steigung und den Achsenabschnitt hinaus zusätzliche Regressionsstatistiken bereitgestellt werden sollen. Dies ist standardmäßig FALSE, aber wir werden dies in unseren Beispielen als TRUE angeben.

Die folgenden Beispiele zeigen die praktische Anwendung dieser Funktion.

Einfache lineare Regression in Google Tabellen

Angenommen, wir sind daran interessiert, die Beziehung zwischen den gelernten Stunden und dem Prüfungsergebnis zu verstehen. Studien für eine Prüfung und die erhaltenen Prüfungsergebnisse. Um diese Beziehung zu untersuchen, können wir eine einfache lineare Regression mit den untersuchten Stunden als erklärende Variable und dem Prüfungsergebnis als Antwortvariable durchführen.

Der folgende Screenshot zeigt, wie Sie eine einfache lineare Regression mit einem Datensatz von 20 Schülern durchführen, wobei die folgende Formel in Zelle D2 verwendet wird:

=LINEST(B2:B21, A2:A21, TRUE, TRUE)

Lineare Regression in Google Tabellen

Der folgende Screenshot enthält Anmerkungen für die Ausgabe:Regressionsausgabe in Google Tabellen

So interpretieren Sie die relevantesten Zahlen in der Ausgabe:

R Square: 0,72725. Dies wird als Bestimmtheitsmaß bezeichnet. Es ist der Anteil der Varianz in der Antwortvariablen, der durch die erklärende Variable erklärt werden kann. In diesem Beispiel können etwa 72,73% der Abweichung der Prüfungsergebnisse durch die Anzahl der studierten Stunden erklärt werden.

Standard error: 5.2805. Dies ist der durchschnittliche Abstand der beobachteten Werte von der Regressionsgerade. In diesem Beispiel fallen die beobachteten Werte durchschnittlich 5,2805 Einheiten von der Regressionsgerade ab.

Coefficients: Die Koeffizienten geben uns die Zahlen, die notwendig sind, um die geschätzte Regressionsgleichung zu schreiben. In diesem Beispiel lautet die geschätzte Regressionsgleichung:

Exam score = 67.16 + 5.2503*(hours)

Wir interpretieren den Koeffizienten für die Stunden so, dass für jede zusätzlich gelernte Stunde ein Anstieg der Prüfungspunktzahl um durchschnittlich 5,2503 erwartet wird. Wir interpretieren den Koeffizienten für den Achsenabschnitt so, dass die erwartete Prüfungspunktzahl für einen Schüler, der null Stunden studiert, 67,16 beträgt.

Wir können diese geschätzte Regressionsgleichung verwenden, um die erwartete Prüfungsnote für einen Schüler basierend auf der Anzahl der Stunden, die er studiert, zu berechnen. Zum Beispiel wird von einem Studenten, der drei Stunden studiert, erwartet, dass er eine Prüfungspunktzahl von 82,91 erhält:

Prüfungsergebnis = 67,16 + 5,2503*(3) = 82,91

Mehrere lineare Regression in Google Tabellen

Angenommen, wir möchten wissen, ob die Anzahl der Studienstunden und die Anzahl der abgelegten Vorbereitungsprüfungen die Punktzahl beeinflussen, die ein Student bei einer bestimmten College-Aufnahmeprüfung erhält. Um diese Beziehung zu untersuchen, können wir eine multiple lineare Regression unter Verwendung der gelernten Stunden und der Vorbereitungsprüfungen als erklärende Variablen und des Prüfungsergebnisses als Antwortvariable durchführen.

Der folgende Screenshot zeigt, wie Sie eine multiple lineare Regression mit einem Datensatz von 20 Schülern mit der folgenden Formel in Zelle E2 durchführen:

=LINEST(C2:C21, A2:B21, TRUE, TRUE)

Mehrfache lineare Regression in Google Tabellen

So interpretieren Sie die relevantesten Zahlen in der Ausgabe:

R Square: 0,734. Dies wird als Bestimmtheitsmaß bezeichnet. Es ist der Anteil der Varianz in der Antwortvariablen, der durch die erklärenden Variablen erklärt werden kann. In diesem Beispiel können 73,4% der Abweichung der Prüfungsergebnisse durch die Anzahl der studierten Stunden und die Anzahl der abgelegten Vorbereitungsprüfungen erklärt werden.

Standard error: 5.3657. Dies ist der durchschnittliche Abstand der beobachteten Werte von der Regressionsgerade. In diesem Beispiel fallen die beobachteten Werte durchschnittlich 5,3657 Einheiten von der Regressionsgerade ab.

Estimated regression equation: Wir können die Koeffizienten aus der Ausgabe des Modells verwenden, um die folgende geschätzte Regressionsgleichung zu erstellen:

Exam score = 67.67 + 5.56(hours) – 0.60(prep exams)

Wir können diese geschätzte Regressionsgleichung verwenden, um die erwartete Prüfungspunktzahl für einen Schüler zu berechnen, basierend auf der Anzahl der Stunden, die er lernt, und der Anzahl der Vorbereitungsprüfungen, die er ablegt. Zum Beispiel wird von einem Studenten, der drei Stunden studiert und eine Vorbereitungsprüfung ablegt, eine Punktzahl von 83,75 erwartet:

Prüfungsergebnis = 67,67 + 5,56*(3) – 0,60*(1) = 83,75

Zusätzliche Ressourcen

Eine kurze Einführung in die einfache lineare Regression
Den Standardfehler der Regression verstehen

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: