Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
- K: Die Anzahl der Modellparameter …
Multikollinearität bei der Regressionsanalyse tritt auf, wenn zwei oder mehr Prädiktorvariablen stark miteinander korreliert sind, sodass sie keine eindeutigen oder unabhängigen Informationen im Regressionsmodell liefern. Wenn der Korrelationsgrad zwischen Variablen hoch genug ist, kann dies zu Problemen beim Anpassen und Interpretieren des Regressionsmodells führen.
Angenommen, Sie führen eine Regressionsanalyse mit den Prädiktorvariablen Höhe, Schuhgröße und Übungsstunden pro Tag durch, um den maximalen vertikalen Sprung für Basketballspieler vorherzusagen. In diesem Fall sind Größe und Schuhgröße wahrscheinlich stark miteinander korreliert, da größere Personen tendenziell größere Schuhgrößen haben. Dies bedeutet, dass Multikollinearität bei dieser Regression wahrscheinlich ein Problem darstellt.
In diesem Tutorial wird erklärt, warum Multikollinearität ein Problem ist, wie man es erkennt und wie man es löst.
Eines der Hauptziele der Regressionsanalyse besteht darin, die Beziehung zwischen jeder Prädiktorvariablen und der Antwortvariablen zu isolieren. Insbesondere wenn wir eine Regressionsanalyse durchführen, interpretieren wir jeden Regressionskoeffizienten als die mittlere Änderung der Antwortvariablen, vorausgesetzt, alle anderen Prädiktorvariablen im Modell werden konstant gehalten.
Dies bedeutet, dass wir davon ausgehen können, dass wir die Werte einer bestimmten Prädiktorvariablen ändern können, ohne die Werte der anderen Prädiktorvariablen zu ändern. Wenn jedoch zwei oder mehr Prädiktorvariablen stark korreliert sind, wird es schwierig, eine Variable zu ändern, ohne eine andere zu ändern.
Dies macht es für das Regressionsmodell schwierig, die Beziehung zwischen jeder Prädiktorvariablen und der Antwortvariablen unabhängig voneinander zu schätzen, da sich die Prädiktorvariablen dazu neigen, sich im Einklang zu ändern.
Im Allgemeinen verursacht Multikollinearität zwei Arten von Problemen:
Die häufigste Methode zur Erkennung der Multikollinearität ist die Verwendung des Varianzinflationsfaktors (VIF), der die Korrelation und Stärke der Korrelation zwischen den Prädiktorvariablen in einem Regressionsmodell misst.
Die meisten statistischen Softwareprogramme können VIF für ein Regressionsmodell berechnen. Der Wert für VIF beginnt bei 1 und hat keine Obergrenze. Eine allgemeine Faustregel für die Interpretation von VIFs lautet wie folgt:
Angenommen, wir führen eine Regressionsanalyse unter Verwendung der Prädiktorvariablen Höhe, Schuhgröße und Übungsstunden pro Tag durch, um den maximalen vertikalen Sprung für Basketballspieler vorherzusagen und die folgende Ausgabe zu erhalten:
Aus der letzten Spalte können wir ersehen, dass die VIF-Werte für Größe und Schuhgröße beide größer als 5 sind. Dies weist darauf hin, dass sie wahrscheinlich unter Multikollinearität leiden und dass ihre Koeffizientenschätzungen und p-Werte wahrscheinlich unzuverlässig sind.
Wenn wir uns die Koeffizientenschätzung für die Schuhgröße ansehen, sagt uns das Modell, dass für jede weitere Erhöhung der Schuhgröße um eine Einheit die durchschnittliche Zunahme des maximalen vertikalen Sprungs -0,67498 Zoll beträgt, vorausgesetzt, die Höhe und die Übungsstunden werden konstant gehalten.
Dies scheint nicht sinnvoll zu sein, wenn man bedenkt, dass Spieler mit größeren Schuhgrößen größer sind und daher einen höheren maximalen vertikalen Sprung haben. Dies ist ein klassisches Beispiel für Multikollinearität, wodurch die Koeffizientenschätzungen etwas verrückt und nicht intuitiv erscheinen.
Wenn Sie Multikollinearität feststellen, müssen Sie im nächsten Schritt entscheiden, ob Sie sie auf irgendeine Weise beheben müssen. Abhängig vom Ziel Ihrer Regressionsanalyse müssen Sie die Multikollinearität möglicherweise nicht wirklich auflösen. Nämlich:
Wenn Sie feststellen, dass Sie Multikollinearität beheben müssen, umfassen einige gängige Lösungen:
Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
Die logistische Regression ist eine statistische Methode, die wir verwenden, um ein Regressionsmodell anzupassen, wenn die Antwortvariable binär ist.
Um zu beurteilen, wie gut ein logistisches Regressionsmodell zu einem Datensatz …