Die vier Annahmen der linearen Regression

Die lineare Regression ist eine nützliche statistische Methode, mit der wir die Beziehung zwischen zwei Variablen, x und y, verstehen können. Bevor wir jedoch eine lineare Regression durchführen, müssen wir zunächst sicherstellen, dass vier Annahmen erfüllt sind:

1. Lineare Beziehung: Es besteht eine lineare Beziehung zwischen der unabhängigen Variablen x und der abhängigen Variablen y.

2. Unabhängigkeit: Die Residuen sind unabhängig. Insbesondere gibt es keine Korrelation zwischen aufeinanderfolgenden Residuen in Zeitreihendaten.

3. Homoskedastizität: Die Residuen weisen auf jeder Ebene von x eine konstante Varianz auf.

4. Normalverteilung: Die Residuen des Modells sind normalverteilt.

Wenn eine oder mehrere dieser Annahmen verletzt werden, können die Ergebnisse unserer linearen Regression unzuverlässig oder sogar irreführend sein.

In diesem Beitrag erklären wir für jede Annahme, wie festgestellt wird, ob die Annahme erfüllt ist, und was zu tun ist, wenn die Annahme verletzt wird.

Annahme 1: Lineare Beziehung

Erläuterung

Die erste Annahme der linearen Regression ist, dass es eine lineare Beziehung zwischen der unabhängigen Variablen x und der unabhängigen Variablen y gibt.

Wie kann festgestellt werden, ob diese Annahme erfüllt ist?

Der einfachste Weg, um festzustellen, ob diese Annahme erfüllt ist, besteht darin, ein Streudiagramm von x gegen y zu erstellen. Auf diese Weise können Sie visuell feststellen, ob zwischen den beiden Variablen eine lineare Beziehung besteht. Wenn es so aussieht, als könnten die Punkte im Diagramm entlang einer geraden Linie fallen, besteht eine Art lineare Beziehung zwischen den beiden Variablen, und diese Annahme ist erfüllt.

Zum Beispiel sehen die Punkte in der Darstellung unten so aus, als würden sie ungefähr auf eine gerade Linie fallen, was darauf hinweist, dass es eine lineare Beziehung zwischen x und y gibt:

In der folgenden Darstellung scheint es jedoch keine lineare Beziehung zwischen x und y zu geben:

Und in dieser Darstellung scheint es eine klare Beziehung zwischen x und y zu geben, aber keine lineare Beziehung :

Was tun, wenn diese Annahme verletzt wird?

Wenn Sie ein Streudiagramm mit Werten für x und y erstellen und feststellen, dass zwischen den beiden Variablen keine lineare Beziehung besteht, haben Sie mehrere Möglichkeiten:

1. Wenden Sie eine nichtlineare Transformation auf die unabhängige und / oder abhängige Variable an. Häufige Beispiele sind das Protokoll, die Quadratwurzel oder der Kehrwert der unabhängigen und / oder abhängigen Variablen.

2. Fügen Sie dem Modell eine weitere unabhängige Variable hinzu. Wenn beispielsweise die Darstellung von x gegen y eine parabolische Form hat, kann es sinnvoll sein, X ² als zusätzliche unabhängige Variable im Modell hinzuzufügen.

Annahme 2: Unabhängigkeit

Erläuterung

Die nächste Annahme der linearen Regression ist, dass die Residuen unabhängig sind. Dies ist vor allem bei der Arbeit mit Zeitreihendaten relevant. Idealerweise möchten wir nicht, dass es ein Muster zwischen aufeinanderfolgenden Residuen gibt. Beispielsweise sollten Residuen im Laufe der Zeit nicht stetig größer werden.

Wie kann festgestellt werden, ob diese Annahme erfüllt ist?

Der einfachste Weg, um zu testen, ob diese Annahme erfüllt ist, besteht darin, ein Residuum-Zeitreihendiagramm zu betrachten, das ein Residuum der Residuen gegen die Zeit ist. Idealerweise sollten die meisten verbleibenden Autokorrelationen innerhalb der 95%-Konfidenzbänder um Null liegen, die sich etwa +/- 2 über der Quadratwurzel von n befinden, wobei n die Stichprobengröße ist. Mit dem Durbin-Watson-Test können Sie auch formal testen, ob diese Annahme erfüllt ist.

Was tun, wenn diese Annahme verletzt wird?

Abhängig von der Art und Weise, wie diese Annahme verletzt wird, haben Sie einige Möglichkeiten:

Für eine positive serielle Korrelation sollten Sie Verzögerungen der abhängigen und / oder unabhängigen Variablen zum Modell hinzufügen.
Stellen Sie bei negativer serieller Korrelation sicher, dass keine Ihrer Variablen überdifferenziert ist.
Für die saisonale Korrelation sollten Sie dem Modell saisonale Dummy-Variablen hinzufügen.

Annahme 3: Homoskedastizität

Erläuterung

Die nächste Annahme der linearen Regression ist, dass die Residuen auf jeder Ebene von x eine konstante Varianz aufweisen. Dies ist als Homoskedastizität bekannt. Wenn dies nicht der Fall ist, sollen die Residuen unter Heteroskedastizität leiden.

Wenn in einer Regressionsanalyse Heteroskedastizität vorliegt, sind die Ergebnisse der Analyse schwer zu vertrauen. Insbesondere erhöht die Heteroskedastizität die Varianz der Regressionskoeffizientenschätzungen, aber das Regressionsmodell greift dies nicht auf. Dies macht es für ein Regressionsmodell viel wahrscheinlicher, zu erklären, dass ein Begriff im Modell statistisch signifikant ist, obwohl dies tatsächlich nicht der Fall ist.

Wie kann festgestellt werden, ob diese Annahme erfüllt ist?

Der einfachste Weg, Heteroskedastizität zu erkennen, besteht darin, einen angepassten Wert gegenüber dem Residuenplot zu erstellen.

Sobald Sie eine Regressionslinie an einen Datensatz angepasst haben, können Sie ein Streudiagramm erstellen, in dem die angepassten Werte des Modells im Vergleich zu den Residuen dieser angepassten Werte angezeigt werden. Das Streudiagramm unten zeigt ein typisches angepasstes Wert-Residuen-Diagramm, in dem Heteroskedastizität vorliegt.

Beachten Sie, wie sich die Residuen viel weiter ausbreiten, wenn die angepassten Werte größer werden. Diese „Kegel“-Form ist ein klassisches Zeichen für Heteroskedastizität:

Was tun, wenn diese Annahme verletzt wird?

Es gibt drei gängige Methoden, um die Heteroskedastizität zu beheben:

1. Transformieren Sie die abhängige Variable. Eine übliche Transformation besteht darin, einfach das Protokoll der abhängigen Variablen zu erstellen. Wenn wir beispielsweise die Bevölkerungsgröße (unabhängige Variable) verwenden, um die Anzahl der Blumenläden in einer Stadt vorherzusagen (abhängige Variable), können wir stattdessen versuchen, die Bevölkerungsgröße zu verwenden, um das Protokoll der Anzahl der Blumenläden in einer Stadt vorherzusagen. Die Verwendung des Protokolls der abhängigen Variablen anstelle der ursprünglichen abhängigen Variablen führt häufig dazu, dass die Heteroskedastizität verschwindet.

2. Definieren Sie die abhängige Variable neu. Eine übliche Methode zur Neudefinition der abhängigen Variablen ist die Verwendung einer Rate anstelle des Rohwerts. Anstatt beispielsweise die Bevölkerungsgröße zur Vorhersage der Anzahl der Blumenläden in einer Stadt zu verwenden, können wir stattdessen die Bevölkerungsgröße zur Vorhersage der Anzahl der Blumenläden pro Kopf verwenden. In den meisten Fällen verringert dies die Variabilität, die natürlich bei größeren Populationen auftritt, da wir eher die Anzahl der Blumenläden pro Person als die schiere Anzahl der Blumenläden messen.

3. Verwenden Sie die gewichtete Regression. Eine andere Möglichkeit, die Heteroskedastizität zu beheben, ist die gewichtete Regression. Diese Art der Regression weist jedem Datenpunkt eine Gewichtung basierend auf der Varianz seines angepassten Werts zu. Dies gibt Datenpunkten mit höheren Varianzen im Wesentlichen kleine Gewichte, wodurch ihre quadratischen Residuen verkleinert werden. Wenn die richtigen Gewichte verwendet werden, kann dies das Problem der Heteroskedastizität beseitigen.

Annahme 4: Normalverteilung

Erläuterung

Die nächste Annahme der linearen Regression ist, dass die Residuen normal verteilt sind.

Wie kann festgestellt werden, ob diese Annahme erfüllt ist?

Es gibt zwei gängige Methoden, um zu überprüfen, ob diese Annahme erfüllt ist:

1. Überprüfen Sie die Annahme visuell anhand von QQ-Plots.

Ein QQ-Plot, kurz für Quantil-Quantil-Plot, ist ein Plottyp, mit dem wir bestimmen können, ob die Residuen eines Modells einer Normalverteilung folgen oder nicht. Wenn die Punkte auf dem Plot ungefähr eine gerade diagonale Linie bilden, ist die Annahme einer Normalverteilung erfüllt.

Das folgende QQ-Diagramm zeigt ein Beispiel für Residuen, die ungefähr einer Normalverteilung folgen:

Das folgende QQ-Diagramm zeigt jedoch ein Beispiel dafür, wann die Residuen deutlich von einer geraden diagonalen Linie abweichen, was darauf hinweist, dass sie nicht der Normalverteilung folgen:

2. Sie können die Annahme einer Normalverteilung auch mit formalen statistischen Tests wie Shapiro-Wilk, Kolmogorov-Smironov, Jarque-Barre oder D’Agostino-Pearson überprüfen. Beachten Sie jedoch, dass diese Tests für große Stichprobengrößen empfindlich sind. Das heißt, sie kommen häufig zu dem Schluss, dass die Residuen bei großen Stichproben nicht normal sind. Aus diesem Grund ist es oft einfacher, nur grafische Methoden wie ein QQ-Diagramm zu verwenden, um diese Annahme zu überprüfen.

Was tun, wenn diese Annahme verletzt wird?

Wenn die Annahme der Normalverteilung verletzt wird, haben Sie einige Möglichkeiten:

Stellen Sie zunächst sicher, dass keine Ausreißer einen großen Einfluss auf die Verteilung haben. Wenn Ausreißer vorhanden sind, stellen Sie sicher, dass es sich um echte Werte handelt und dass es sich nicht um Dateneingabefehler handelt.
Als Nächstes können Sie eine nichtlineare Transformation auf die unabhängige und / oder abhängige Variable anwenden. Häufige Beispiele sind das Protokoll, die Quadratwurzel oder der Kehrwert der unabhängigen und / oder abhängigen Variablen.

Weiterführende Literatur:

Heteroskedastizität in der Regressionsanalyse verstehen

Annahme 1: Lineare Beziehung

Erläuterung

Wie kann festgestellt werden, ob diese Annahme erfüllt ist?

Was tun, wenn diese Annahme verletzt wird?

Annahme 2: Unabhängigkeit

Erläuterung

Wie kann festgestellt werden, ob diese Annahme erfüllt ist?

Was tun, wenn diese Annahme verletzt wird?

Annahme 3: Homoskedastizität

Erläuterung

Wie kann festgestellt werden, ob diese Annahme erfüllt ist?

Was tun, wenn diese Annahme verletzt wird?

Annahme 4: Normalverteilung

Erläuterung

Wie kann festgestellt werden, ob diese Annahme erfüllt ist?

Was tun, wenn diese Annahme verletzt wird?

Statistik: Der Weg zur Datenanalyse

So berechnen Sie AIC von Regressionsmodellen in Python

So berechnen Sie die AUC (Fläche unter der Kurve) in Python