So testen Sie die Multikollinearität in Stata

Von Fabian
Kategorie: STATA
Tags: Regression
Lesezeit: 3 Minuten

Multikollinearität in der Regressionsanalyse tritt auf, wenn zwei oder mehr erklärende Variablen stark miteinander korreliert sind, sodass sie keine eindeutigen oder unabhängigen Informationen im Regressionsmodell liefern. Wenn der Korrelationsgrad zwischen Variablen hoch genug ist, kann dies zu Problemen beim Anpassen und Interpretieren des Regressionsmodells führen.

Angenommen, Sie führen eine multiple lineare Regression mit den folgenden Variablen aus:

Antwortvariable: maximaler vertikaler Sprung

Erklärende Variablen: Schuhgröße, Größe, Übungszeit

In diesem Fall sind die erklärenden Variablen Schuhgröße und -größe wahrscheinlich stark korreliert, da größere Personen tendenziell größere Schuhgrößen haben. Dies bedeutet, dass Multikollinearität bei dieser Regression wahrscheinlich ein Problem darstellt.

Glücklicherweise ist es möglich, Multikollinearität mithilfe einer Metrik zu ermitteln, die als Varianzinflationsfaktor (VIF) bezeichnet wird und die Korrelation und Stärke der Korrelation zwischen den erklärenden Variablen in einem Regressionsmodell misst.

In diesem Tutorial wird erläutert, wie Sie mithilfe von VIF Multikollinearität in einer Regressionsanalyse in Stata erkennen.

Beispiel: Multikollinearität in Stata

In diesem Beispiel verwenden wir das in Stata integrierte Dataset namens auto. Verwenden Sie den folgenden Befehl, um den Datensatz zu laden:

sysuse auto

Wir werden den regress verwenden, um ein Modell mit multipler linearen Regressionen anzupassen, wobei Preis als Antwortvariable und Gewicht, Länge und mpg als erklärende Variablen verwendet werden:

regress price weight length mpg

Multiple lineare Regressionsausgabe in Stata

Als Nächstes verwenden wir den Befehl vif, um die Multikollinearität zu testen:

vif

VIF in Stata

Dies erzeugt einen VIF-Wert für jede der erklärenden Variablen im Modell. Der Wert für VIF beginnt bei 1 und hat keine Obergrenze. Eine allgemeine Faustregel für die Interpretation von VIFs lautet wie folgt:

  • Ein Wert von 1 zeigt an, dass keine Korrelation zwischen einer bestimmten erklärenden Variablen und anderen erklärenden Variablen im Modell besteht.
  • Ein Wert zwischen 1 und 5 zeigt eine moderate Korrelation zwischen einer bestimmten erklärenden Variablen und anderen erklärenden Variablen im Modell an, dies ist jedoch häufig nicht schwerwiegend genug, um Aufmerksamkeit zu erfordern.
  • Ein Wert größer als 5 zeigt eine möglicherweise schwerwiegende Korrelation zwischen einer bestimmten erklärenden Variablen und anderen erklärenden Variablen im Modell an. In diesem Fall sind die Koeffizientenschätzungen und p-Werte in der Regressionsausgabe wahrscheinlich unzuverlässig.

Wir können sehen, dass die VIF-Werte für Gewicht und Länge größer als 5 sind, was darauf hinweist, dass Multikollinearität im Regressionsmodell wahrscheinlich ein Problem darstellt.

Umgang mit Multikollinearität

Der einfachste Weg, mit Multikollinearität umzugehen, besteht häufig darin, einfach eine der problematischen Variablen zu entfernen, da die Variable, die Sie entfernen, wahrscheinlich ohnehin redundant ist und dem Modell nur wenige eindeutige oder unabhängige Informationen hinzufügt.

Um zu bestimmen, welche Variable entfernt werden soll, können wir mit dem Befehl corr eine Korrelationsmatrix erstellen, um die Korrelationskoeffizienten zwischen den einzelnen Variablen im Modell anzuzeigen. Auf diese Weise können wir ermitteln, welche Variablen möglicherweise stark miteinander korrelieren und Ursachen haben das Problem der Multikollinearität:

corr price weight length mpg

Korrelationsmatrix in Stata

Wir können sehen, dass die Länge sowohl mit dem Gewicht als auch mit dem mpg stark korreliert und die niedrigste Korrelation mit dem Preis der Antwortvariablen aufweist. Das Entfernen der Länge aus dem Modell könnte somit das Problem der Multikollinearität lösen, ohne die Gesamtqualität des Regressionsmodells zu verringern.

Um dies zu testen, können wir die Regressionsanalyse erneut durchführen, indem wir nur Gewicht und mpg als erklärende Variablen verwenden:

regress price weight mpg

Multiple lineare Regressionsausgabe in Stata

Wir können sehen, dass das angepasste R-Quadrat dieses Modells 0,2735 beträgt, verglichen mit 0,3298 im vorherigen Modell. Dies weist darauf hin, dass der allgemeine Nutzen des Modells nur geringfügig abnahm. Als nächstes können wir die VIF-Werte mit dem VIF-Befehl wiederfinden:

VIF

VIF-Werte in Stata

Beide VIF-Werte liegen unter 5, was darauf hinweist, dass Multikollinearität im Modell kein Problem mehr darstellt.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: