Ein Leitfaden zu Multikollinearität in der Regression

Von Fabian
Kategorie: Tutorials
Tags: Regression
Lesezeit: 5 Minuten

Multikollinearität bei der Regressionsanalyse tritt auf, wenn zwei oder mehr Prädiktorvariablen stark miteinander korreliert sind, sodass sie keine eindeutigen oder unabhängigen Informationen im Regressionsmodell liefern. Wenn der Korrelationsgrad zwischen Variablen hoch genug ist, kann dies zu Problemen beim Anpassen und Interpretieren des Regressionsmodells führen.

Angenommen, Sie führen eine Regressionsanalyse mit den Prädiktorvariablen Höhe, Schuhgröße und Übungsstunden pro Tag durch, um den maximalen vertikalen Sprung für Basketballspieler vorherzusagen. In diesem Fall sind Größe und Schuhgröße wahrscheinlich stark miteinander korreliert, da größere Personen tendenziell größere Schuhgrößen haben. Dies bedeutet, dass Multikollinearität bei dieser Regression wahrscheinlich ein Problem darstellt.

In diesem Tutorial wird erklärt, warum Multikollinearität ein Problem ist, wie man es erkennt und wie man es löst.

Warum Multikollinearität ein Problem ist

Eines der Hauptziele der Regressionsanalyse besteht darin, die Beziehung zwischen jeder Prädiktorvariablen und der Antwortvariablen zu isolieren. Insbesondere wenn wir eine Regressionsanalyse durchführen, interpretieren wir jeden Regressionskoeffizienten als die mittlere Änderung der Antwortvariablen, vorausgesetzt, alle anderen Prädiktorvariablen im Modell werden konstant gehalten.

Dies bedeutet, dass wir davon ausgehen können, dass wir die Werte einer bestimmten Prädiktorvariablen ändern können, ohne die Werte der anderen Prädiktorvariablen zu ändern. Wenn jedoch zwei oder mehr Prädiktorvariablen stark korreliert sind, wird es schwierig, eine Variable zu ändern, ohne eine andere zu ändern.

Dies macht es für das Regressionsmodell schwierig, die Beziehung zwischen jeder Prädiktorvariablen und der Antwortvariablen unabhängig voneinander zu schätzen, da sich die Prädiktorvariablen dazu neigen, sich im Einklang zu ändern.

Im Allgemeinen verursacht Multikollinearität zwei Arten von Problemen:

  • Die Koeffizientenschätzungen des Modells (und sogar die Vorzeichen der Koeffizienten) können erheblich schwanken, je nachdem, welche anderen Prädiktorvariablen im Modell enthalten sind.
  • Die Genauigkeit der Koeffizientenschätzungen wird verringert, was die p-Werte unzuverlässig macht. Dies macht es schwierig zu bestimmen, welche Prädiktorvariablen tatsächlich statistisch signifikant sind.

So erkennen Sie Multikollinearität

Die häufigste Methode zur Erkennung der Multikollinearität ist die Verwendung des Varianzinflationsfaktors (VIF), der die Korrelation und Stärke der Korrelation zwischen den Prädiktorvariablen in einem Regressionsmodell misst.

Verwendung des Varianzinflationsfaktors (VIF)

Die meisten statistischen Softwareprogramme können VIF für ein Regressionsmodell berechnen. Der Wert für VIF beginnt bei 1 und hat keine Obergrenze. Eine allgemeine Faustregel für die Interpretation von VIFs lautet wie folgt:

  • Ein Wert von 1 zeigt an, dass keine Korrelation zwischen einer bestimmten Prädiktorvariablen und anderen Prädiktorvariablen im Modell besteht.
  • Ein Wert zwischen 1 und 5 zeigt eine moderate Korrelation zwischen einer bestimmten Prädiktorvariablen und anderen Prädiktorvariablen im Modell an, dies ist jedoch häufig nicht schwerwiegend genug, um Aufmerksamkeit zu erfordern.
  • Ein Wert größer als 5 zeigt eine möglicherweise schwerwiegende Korrelation zwischen einer bestimmten Prädiktorvariablen und anderen Prädiktorvariablen im Modell an. In diesem Fall sind die Koeffizientenschätzungen und p-Werte in der Regressionsausgabe wahrscheinlich unzuverlässig.

Angenommen, wir führen eine Regressionsanalyse unter Verwendung der Prädiktorvariablen Höhe, Schuhgröße und Übungsstunden pro Tag durch, um den maximalen vertikalen Sprung für Basketballspieler vorherzusagen und die folgende Ausgabe zu erhalten:

Multikollinearität

Aus der letzten Spalte können wir ersehen, dass die VIF-Werte für Größe und Schuhgröße beide größer als 5 sind. Dies weist darauf hin, dass sie wahrscheinlich unter Multikollinearität leiden und dass ihre Koeffizientenschätzungen und p-Werte wahrscheinlich unzuverlässig sind.

Wenn wir uns die Koeffizientenschätzung für die Schuhgröße ansehen, sagt uns das Modell, dass für jede weitere Erhöhung der Schuhgröße um eine Einheit die durchschnittliche Zunahme des maximalen vertikalen Sprungs -0,67498 Zoll beträgt, vorausgesetzt, die Höhe und die Übungsstunden werden konstant gehalten.

Dies scheint nicht sinnvoll zu sein, wenn man bedenkt, dass Spieler mit größeren Schuhgrößen größer sind und daher einen höheren maximalen vertikalen Sprung haben. Dies ist ein klassisches Beispiel für Multikollinearität, wodurch die Koeffizientenschätzungen etwas verrückt und nicht intuitiv erscheinen.

So lösen Sie Multikollinearität auf

Wenn Sie Multikollinearität feststellen, müssen Sie im nächsten Schritt entscheiden, ob Sie sie auf irgendeine Weise beheben müssen. Abhängig vom Ziel Ihrer Regressionsanalyse müssen Sie die Multikollinearität möglicherweise nicht wirklich auflösen. Nämlich:

  1. Wenn nur eine mäßige Multikollinearität vorliegt, müssen Sie diese wahrscheinlich in keiner Weise beheben.
  2. Multikollinearität wirkt sich nur auf die Prädiktorvariablen aus, die miteinander korreliert sind. Wenn Sie an einer Prädiktorvariablen im Modell interessiert sind, die nicht unter Multikollinearität leidet, ist Multikollinearität kein Problem.
  3. Multikollinearität wirkt sich auf die Koeffizientenschätzungen und die p-Werte aus, hat jedoch keinen Einfluss auf Vorhersagen oder Statistiken zur Anpassungsgüte. Dies bedeutet, dass Multikollinearität nicht aufgelöst werden muss, wenn Ihr Hauptziel bei der Regression darin besteht, Vorhersagen zu treffen, und Sie nicht die genaue Beziehung zwischen den Prädiktorvariablen und der Antwortvariablen verstehen möchten.

Wenn Sie feststellen, dass Sie Multikollinearität beheben müssen, umfassen einige gängige Lösungen:

  1. Entfernen Sie eine oder mehrere der stark korrelierten Variablen. Dies ist in den meisten Fällen die schnellste Lösung und häufig eine akzeptable Lösung, da die Variablen, die Sie entfernen, ohnehin redundant sind und dem Modell nur wenige eindeutige oder unabhängige Informationen hinzufügen.
  2. Kombinieren Sie die Prädiktorvariablen auf irgendeine Weise linear, z. B. indem Sie sie auf eine Weise addieren oder subtrahieren. Auf diese Weise können Sie eine neue Variable erstellen, die die Informationen beider Variablen umfasst, und Sie haben kein Problem mit Multikollinearität mehr.
  3. Führen Sie eine Analyse durch, die stark korrelierte Variablen wie die Hauptkomponentenanalyse oder die PLS-Regression (Partial Least Squares) berücksichtigt. Diese Techniken wurden speziell für stark korrelierte Prädiktorvariablen entwickelt.
Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: