So testen Sie die Bedeutung einer Regressionssteigung

Von Fabian
Kategorie: Tutorials
Tags: Regression
Lesezeit: 4 Minuten

Angenommen, wir haben den folgenden Datensatz, der die Fläche und den Preis von 12 verschiedenen Häusern zeigt:

Einfaches Beispiel für eine lineare Regression

Wir möchten wissen, ob es einen signifikanten Zusammenhang zwischen der Fläche und dem Preis gibt. Um eine Vorstellung davon zu bekommen, wie die Daten aussehen, erstellen wir zunächst ein Streudiagramm mit Fläche auf der x-Achse und Preis auf der y-Achse:

Einfaches lineares Regressionsstreudiagramm

Wir können deutlich sehen, dass es eine positive Korrelation zwischen Fläche und Preis gibt. Mit steigenden Quadratmetern steigt auch der Preis des Hauses.

Um jedoch zu wissen, ob es eine statistisch signifikante Beziehung zwischen Fläche und Preis gibt, müssen wir eine einfache lineare Regression durchführen.

Wir führen also eine einfache lineare Regression mit Quadratfuß als Prädiktor und Preis als Antwort durch und erhalten die folgende Ausgabe:

Einfache lineare Regressionsausgabe

Unabhängig davon, ob Sie eine einfache lineare Regression in Excel, SPSS, R oder einer anderen Software ausführen, erhalten Sie eine ähnliche Ausgabe wie oben gezeigt.

Denken Sie daran, dass eine einfache lineare Regression die Linie mit der besten Anpassung ergibt. Dies ist die Gleichung für die Linie, die am besten zu den Daten in unserem Streudiagramm passt. Diese Linie der besten Anpassung ist definiert als:

ŷ = b 0 + b 1 x

Dabei ist ŷ der vorhergesagte Wert der Antwortvariablen, b0 der y-Achsenabschnitt, b1 der Regressionskoeffizient und x der Wert der Prädiktorvariablen.

Der Wert für b0 ergibt sich aus dem Koeffizienten für den Achsenabschnitt, der 47588,70 beträgt .

Der Wert für b1 ergibt sich aus dem Koeffizienten für die Prädiktorvariable Square Feet, der 93,57 beträgt .

Daher ist die Linie der besten Anpassung in diesem Beispiel ŷ = 47588,70+ 93,57x

So interpretieren Sie diese Linie der besten Anpassung:

  • b0: Wenn der Wert für Quadratfuß Null ist, beträgt der durchschnittliche erwartete Wert für den Preis 47.588,70 USD. (In diesem Fall ist es nicht wirklich sinnvoll, den Achsenabschnitt zu interpretieren, da ein Haus niemals eine Fläche von null haben kann.)
  • b1: Für jeden weiteren Quadratfuß beträgt der durchschnittlich erwartete Preisanstieg 93,57 USD.

Jetzt wissen wir also, dass für jede weitere Flächeneinheit der durchschnittliche erwartete Preisanstieg 93,57 USD beträgt. Um herauszufinden, ob dieser Anstieg statistisch signifikant ist, müssen wir einen Hypothesentest für B1 durchführen oder ein Konfidenzintervall für B1 erstellen.

Hinweis: Ein Hypothesentest und ein Konfidenzintervall führen immer zu denselben Ergebnissen.

Erstellen eines Konfidenzintervalls für eine Regressionssteigung

Um ein Konfidenzintervall für eine Regressionssteigung zu erstellen, verwenden wir die folgende Formel:

b 1 +/- (t 1-∝ / 2, n-2 ) * (Standardfehler von b1)

wobei:

  • b1 ist der in der Regressionsausgabe angegebene Steigungskoeffizient
  • (t 1-∝ / 2, n-2 ) ist der t-kritische Wert für das Konfidenzniveau 1-∝ mit n-2 Freiheitsgraden, wobei n die Gesamtzahl der Beobachtungen in unserem Datensatz ist
  • (Standardfehler von b1) ist der Standardfehler von b1, der in der Regressionsausgabe angegeben ist

In unserem Beispiel wird hier ein 95%-Konfidenzintervall für B1 erstellt:

  • b1 ist 93,57 aus der Regressionsausgabe.
  • Da wir ein 95%-Konfidenzintervall verwenden, ist ∝ = 0,05 und n-2= 12-2 = 10, also t.975, 10 ist 2,228 gemäß der t-Verteilungstabelle
  • (Standardfehler von b1) beträgt 11,45 aus der Regressionsausgabe

Unser 95%-Konfidenzintervall für B1 lautet also:

93,57 +/- (2,228) * (11,45) = (68,06, 119,08)

Dies bedeutet, dass wir zu 95% davon überzeugt sind, dass der tatsächliche durchschnittliche Preisanstieg für jede weitere Flächeneinheit zwischen 68,06 USD und 119,08 USD liegt.

Beachten Sie, dass $0 nicht in diesem Intervall liegt, sodass die Beziehung zwischen Quadratfuß und Preis bei einem Konfidenzniveau von 95% statistisch signifikant ist.

Durchführen eines Hypothesentests für eine Regressionssteigung

Um einen Hypothesentest für eine Regressionssteigung durchzuführen, befolgen wir die fünf Standardschritte für jeden Hypothesentest :

Schritt 1. Geben Sie die Hypothesen an.

Die Nullhypothese (H0): B1 = 0

Die alternative Hypothese: (Ha): B1 ≠ 0

Schritt 2. Bestimmen Sie ein zu verwendendes Signifikanzniveau.

Da wir im vorherigen Beispiel ein 95%-Konfidenzintervall erstellt haben, verwenden wir hier den entsprechenden Ansatz und wählen ein Signifikanzniveau von 0,05.

Schritt 3. Finden Sie die Teststatistik und den entsprechenden p-Wert.

In diesem Fall ist die Teststatistik t = Koeffizient von b 1 / Standardfehler von b1 mit n-2 Freiheitsgraden. Wir können diese Werte aus der Regressionsausgabe finden:

Einfache lineare Regressionsausgabe
Somit ist die Teststatistik t = 92,89 / 13,88 = 6,69.

Mit einem Score von 6,69 bei 10 Freiheitsgraden und einem zweiseitigen Test ist der p-Wert = 0,000.

Schritt 4. Die Nullhypothese ablehnen oder nicht ablehnen.

Da der p-Wert unter unserem Signifikanzniveau von 0,05 liegt, lehnen wir die Nullhypothese ab.

Schritt 5. Interpretieren Sie die Ergebnisse.

Da wir die Nullhypothese abgelehnt haben, haben wir genügend Beweise, um zu sagen, dass der wahre durchschnittliche Preisanstieg für jede zusätzliche Flächeneinheit (square feet) nicht Null ist.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: