Multikollinearität in Excel berechnen - so geht's

Von Fabian
Kategorie: Excel
Tags: Regression
Lesezeit: 3 Minuten

Multikollinearität in der Regressionsanalyse tritt auf, wenn zwei oder mehr erklärende Variablen stark miteinander korreliert sind, sodass sie keine eindeutigen oder unabhängigen Informationen im Regressionsmodell liefern. Wenn der Korrelationsgrad zwischen den Variablen hoch genug ist, kann dies zu Problemen bei der Anpassung und Interpretation des Regressionsmodells führen.

Glücklicherweise ist es möglich, Multikollinearität mithilfe einer als Varianzinflationsfaktor (VIF) bekannten Metrik zu erkennen, die die Korrelation und Stärke der Korrelation zwischen den erklärenden Variablen in einem Regressionsmodell misst.

Dieses Tutorial erklärt, wie man VIF in Excel berechnet.

Beispiel: Berechnung von VIF in Excel

Für dieses Beispiel führen wir eine multiple lineare Regression mit dem folgenden Datensatz durch, der die Attribute von 10 Basketballspielern beschreibt. Wir werden ein Regressionsmodell anpassen, das Rating als Antwortvariable und Punkte, Assists und Rebounds als erklärende Variablen verwendet. Dann identifizieren wir die VIF-Werte für jede erklärende Variable.

Rohdaten in Excel

Schritt 1: Führen Sie eine multiple lineare Regression durch.

Gehen Sie im oberen Menüband zur Registerkarte Daten und klicken Sie auf Datenanalyse. Wenn diese Option nicht angezeigt wird, müssen Sie zuerst das kostenlose Analysis ToolPak installieren.

Datenanalyse-Toolpak in Excel

Sobald Sie auf Datenanalyse klicken, öffnet sich ein neues Fenster. Wählen Sie Regression und klicken Sie auf OK.

Regression mit Data Analysis Toolpak in Excel

Füllen Sie die erforderlichen Arrays für die Antwortvariablen und die erklärenden Variablen aus und klicken Sie dann auf OK.

Mehrfachregression in Excel

Dies erzeugt die folgende Ausgabe:

Regressionsausgabe in Excel

Schritt 2: Berechnen Sie den VIF für jede erklärende Variable.

Als nächstes können wir den VIF für jede der drei erklärenden Variablen berechnen, indem wir individuelle Regressionen mit einer erklärenden Variablen als Antwortvariable und den anderen beiden als erklärenden Variablen durchführen.

Beispielsweise können wir den VIF für die variablen Punkte berechnen, indem wir eine multiple lineare Regression mit Punkten als Antwortvariable und Assists und Rebounds als erklärende Variablen durchführen.

Dies erzeugt die folgende Ausgabe:

VIF in Excel berechnen

Der VIF für Punkte wird berechnet als 1 / (1 – R Square) = 1 / (1 – .433099) = 1,76.

Wir können diesen Vorgang dann für die anderen beiden Variablen Assists und Rebounds wiederholen.

Es stellt sich heraus, dass die VIF für die drei erklärenden Variablen wie folgt sind:

Rebounds: 1,76
Supports: 1,96
Rebounds: 1.18

So interpretieren Sie VIF-Werte

Der Wert für VIF beginnt bei 1 und hat keine Obergrenze. Eine allgemeine Faustregel für die Interpretation von VIFs lautet wie folgt:

  • Ein Wert von 1 gibt an, dass keine Korrelation zwischen einer bestimmten erklärenden Variablen und anderen erklärenden Variablen im Modell besteht.
  • Ein Wert zwischen 1 und 5 weist auf eine mäßige Korrelation zwischen einer bestimmten erklärenden Variablen und anderen erklärenden Variablen im Modell hin, die jedoch oft nicht stark genug ist, um Aufmerksamkeit zu erfordern.
  • Ein Wert größer als 5 weist auf eine potenziell starke Korrelation zwischen einer bestimmten erklärenden Variablen und anderen erklärenden Variablen im Modell hin. In diesem Fall sind die Koeffizientenschätzungen und p-Werte in der Regressionsausgabe wahrscheinlich unzuverlässig.

Da jeder der VIF-Werte für die erklärenden Variablen in unserem Regressionsmodell nahe 1 liegt, ist Multikollinearität in unserem Beispiel kein Problem.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: