Heteroskedastizität in der Regressionsanalyse verstehen

In der Regressionsanalyse bezieht sich Heteroskedastizität (manchmal buchstabierte Heteroskedastizität) auf die ungleiche Streuung von Residuen oder Fehlertermen. Insbesondere bezieht es sich auf den Fall, dass sich die Verteilung der Residuen über den Bereich der Messwerte systematisch ändert.

Die Heteroskedastizität ist ein Problem, da die gewöhnliche Regression der kleinsten Quadrate (OLS – Ordinary Least Squares) davon ausgeht, dass die Residuen aus einer Population mit Homoskedastizität stammen, was eine konstante Varianz bedeutet.

Wenn in einer Regressionsanalyse Heteroskedastizität vorliegt, sind die Ergebnisse der Analyse schwer zu vertrauen. Insbesondere erhöht die Heteroskedastizität die Varianz der Regressionskoeffizientenschätzungen, aber das Regressionsmodell greift dies nicht auf. Dies macht es für ein Regressionsmodell viel wahrscheinlicher, zu erklären, dass ein Begriff im Modell statistisch signifikant ist, obwohl dies tatsächlich nicht der Fall ist.

In diesem Artikel wird erläutert, wie Heteroskedastizität erkannt wird, was Heteroskedastizität verursacht und wie das Problem der Heteroskedastizität behoben werden kann.

Wie man Heteroskedastizität erkennt

Der einfachste Weg, Heteroskedastizität zu erkennen, ist ein angepasster Wert gegenüber dem Residuenplot.

Sobald Sie eine Regressionslinie an einen Datensatz angepasst haben, können Sie ein Streudiagramm erstellen, in dem die angepassten Werte des Modells im Vergleich zu den Residuen dieser angepassten Werte angezeigt werden.

Das Streudiagramm unten zeigt ein typisches angepasstes Wert-Residuen-Diagramm, in dem Heteroskedastizität vorliegt.

Beachten Sie, wie sich die Residuen viel weiter ausbreiten, wenn die angepassten Werte größer werden. Diese „Kegel“-Form ist ein verräterisches Zeichen für Heteroskedastizität.

Was verursacht Heteroskedastizität?

Heteroskedastizität tritt natürlich in Datensätzen auf, in denen ein großer Bereich von beobachteten Datenwerten vorliegt. Zum Beispiel:

Stellen Sie sich einen Datensatz vor, der die jährlichen Einnahmen und Ausgaben von 100.000 Menschen in den USA enthält. Für Personen mit geringerem Einkommen ist die Variabilität der entsprechenden Ausgaben geringer, da diese Personen wahrscheinlich nur über genügend Geld verfügen, um den Bedarf zu decken. Für Personen mit höherem Einkommen ist die Variabilität der entsprechenden Ausgaben höher, da diese Personen mehr Geld ausgeben können, wenn sie dies wünschen. Einige Personen mit höherem Einkommen geben den größten Teil ihres Einkommens aus, während andere sich dafür entscheiden, sparsam zu sein und nur einen Teil ihres Einkommens auszugeben, weshalb die Variabilität der Ausgaben bei diesen Personen mit höherem Einkommen von Natur aus höher ist.
Stellen Sie sich einen Datensatz vor, der die Populationen und die Anzahl der Blumenläden in 1.000 verschiedenen Städten in den USA enthält. In Städten mit kleinen Einwohnern sind möglicherweise nur ein oder zwei Blumenläden vorhanden. In Städten mit größerer Bevölkerungszahl wird die Anzahl der Blumenläden jedoch sehr viel variabler sein. Diese Städte können zwischen 10 und 100 Geschäfte haben. Dies bedeutet, wenn wir eine Regressionsanalyse erstellen und die Bevölkerung verwenden, um die Anzahl der Blumenläden vorherzusagen, wird die Variabilität der Residuen für die Städte mit höheren Bevölkerungsgruppen von Natur aus größer sein.

Einige Datensätze sind einfach anfälliger für Heteroskedastizität als andere.

Heteroskedastizität beheben

Es gibt drei gängige Methoden, um die Heteroskedastizität zu beheben:

1. Transformieren Sie die abhängige Variable**

Eine Möglichkeit, die Heteroskedastizität zu beheben, besteht darin, die abhängige Variable auf irgendeine Weise zu transformieren. Eine übliche Transformation besteht darin, einfach das Protokoll der abhängigen Variablen zu erstellen. Wenn wir beispielsweise die Bevölkerungsgröße (unabhängige Variable) verwenden, um die Anzahl der Blumenläden in einer Stadt vorherzusagen (abhängige Variable), können wir stattdessen versuchen, die Bevölkerungsgröße zu verwenden, um das Protokoll der Anzahl der Blumenläden in einer Stadt vorherzusagen. Die Verwendung des Protokolls der abhängigen Variablen anstelle der ursprünglichen abhängigen Variablen führt häufig dazu, dass die Heteroskedastizität verschwindet.

2. Definieren Sie die abhängige Variable neu**

Eine andere Möglichkeit, die Heteroskedastizität zu beheben, besteht darin, die abhängige Variable neu zu definieren. Ein üblicher Weg, dies zu tun, besteht darin, eine Rate für die abhängige Variable anstelle des Rohwerts zu verwenden. Anstatt beispielsweise die Bevölkerungsgröße zur Vorhersage der Anzahl der Blumenläden in einer Stadt zu verwenden, können wir stattdessen die Bevölkerungsgröße zur Vorhersage der Anzahl der Blumenläden pro Kopf verwenden. In den meisten Fällen verringert dies die Variabilität, die natürlich bei größeren Populationen auftritt, da wir eher die Anzahl der Blumenläden pro Person als die schiere Anzahl der Blumenläden messen.

3. Verwenden Sie die gewichtete Regression**

Eine andere Möglichkeit, die Heteroskedastizität zu beheben, ist die gewichtete Regression. Diese Art der Regression weist jedem Datenpunkt eine Gewichtung basierend auf der Varianz seines angepassten Werts zu. Dies gibt Datenpunkten mit höheren Varianzen im Wesentlichen kleine Gewichte, wodurch ihre quadratischen Residuen verkleinert werden. Wenn die richtigen Gewichte verwendet werden, kann dies das Problem der Heteroskedastizität beseitigen.

Fazit

Heteroskedastizität ist ein ziemlich häufiges Problem bei der Regressionsanalyse, da so viele Datensätze von Natur aus für nicht konstante Varianz anfällig sind. Durch Verwendung eines angepassten Werts gegenüber dem Residuenplot kann es jedoch ziemlich einfach sein, Heteroskedastizität zu erkennen. Durch Transformation der abhängigen Variablen, Neudefinition der abhängigen Variablen oder Verwendung der gewichteten Regression kann das Problem der Heteroskedastizität häufig beseitigt werden.