Eines der häufigsten Probleme beim Erstellen von Modellen ist die Multikollinearität. Dies tritt auf, wenn zwei oder mehr Prädiktorvariablen in einem Datensatz stark korreliert sind.

In diesem Fall kann ein bestimmtes Modell möglicherweise gut zu einem Trainingsdatensatz passen, aber bei einem neuen Datensatz, den es noch nie gesehen hat, ist die Leistung wahrscheinlich schlecht, da es dem Trainingssatz überangepasst ist.

Eine Möglichkeit, eine Überanpassung zu vermeiden, besteht in der Verwendung einer Teilmengenauswahlmethode wie:

Diese Methoden versuchen, irrelevante Prädiktoren aus dem Modell zu entfernen, sodass im endgültigen Modell nur die wichtigsten Prädiktoren übrig bleiben, die in der Lage sind, die Variation der Antwortvariablen vorherzusagen.

Eine andere Möglichkeit, eine Überanpassung zu vermeiden, besteht in der Verwendung einer Regularisierungsmethode wie:

Diese Methoden versuchen, die Koeffizienten eines Modells zu beschränken oder zu regulieren, um die Varianz zu verringern, und erzeugen so Modelle, die sich gut auf neue Daten verallgemeinern lassen.

Ein völlig anderer Ansatz zum Umgang mit Multikollinearität ist als Dimensionsreduktion bekannt.

Eine übliche Methode zur Dimensionsreduktion ist die Hauptkomponentenregression, die wie folgt funktioniert:

1. Angenommen, ein gegebener Datensatz enthält p Prädiktoren: X 1 , X 2 ,…, X p

2. Berechnen Sie Z 1 ,…, Z M als die M linearen Kombinationen der ursprünglichen p-Prädiktoren.

  • Z m = ΣΦ jm X j für einige Konstanten Φ 1m , Φ 2m , Φ pm , m = 1,…, M.
  • Z 1 ist die lineare Kombination der Prädiktoren, die die größtmögliche Varianz erfasst.
  • Z 2 ist die nächste lineare Kombination der Prädiktoren, die die größte Varianz erfasst, während sie orthogonal (d.h. nicht korreliert) zu Z 1 ist.
  • Z 3 ist dann die nächste lineare Kombination der Prädiktoren, die die größte Varianz erfasst, während sie orthogonal zu Z 2 ist.
  • Und so weiter. 3. Verwenden Sie die Methode der kleinsten Quadrate, um ein lineares Regressionsmodell unter Verwendung der ersten M Hauptkomponenten Z 1 ,…, Z M als Prädiktoren anzupassen.

Die Reduzierung der Phrasendimension ergibt sich aus der Tatsache, dass bei dieser Methode nur M + 1-Koeffizienten anstelle von p + 1-Koeffizienten geschätzt werden müssen, wobei M <p ist.

Mit anderen Worten wurde die Dimension des Problems von p + 1 auf M + 1 reduziert.

In vielen Fällen, in denen Multikollinearität in einem Datensatz vorhanden ist, kann die Hauptkomponentenregression ein Modell erzeugen, das sich besser auf neue Daten verallgemeinern lässt als die herkömmliche multiple lineare Regression.

Schritte zum Durchführen der Hauptkomponentenregression

In der Praxis werden die folgenden Schritte verwendet, um eine Regression der Hauptkomponenten durchzuführen:

1. Standardisieren Sie die Prädiktoren.

Zunächst standardisieren wir die Daten normalerweise so, dass jede Prädiktorvariable einen Mittelwert von 0 und eine Standardabweichung von 1 hat. Dies verhindert, dass ein Prädiktor einen übermäßigen Einfluss hat, insbesondere wenn er in verschiedenen Einheiten gemessen wird (d.h. wenn X 1 in Zoll gemessen wird und X 2 wird in Yards gemessen).

2. Berechnen Sie die Hauptkomponenten und führen Sie eine lineare Regression durch, indem Sie die Hauptkomponenten als Prädiktoren verwenden.

Als nächstes berechnen wir die Hauptkomponenten und verwenden die Methode der kleinsten Quadrate, um ein lineares Regressionsmodell unter Verwendung der ersten M Hauptkomponenten Z 1 ,…, Z M als Prädiktoren anzupassen.

3. Entscheiden Sie, wie viele Hauptkomponenten aufbewahrt werden sollen.

Als nächstes verwenden wir die k-fache Kreuzvalidierung, um die optimale Anzahl von Hauptkomponenten zu finden, die im Modell beibehalten werden sollen. Die „optimale“ Anzahl der zu behaltenden Hauptkomponenten ist normalerweise die Anzahl, die den niedrigsten mittleren quadratischen Testfehler (MSE) erzeugt.

Vor- und Nachteile der Hauptkomponentenregression

Principal Components Regression (PCR) bietet die folgenden Vorteile:

  • Die PCR neigt dazu, eine gute Leistung zu erbringen, wenn die ersten Hauptkomponenten in der Lage sind, den größten Teil der Variation in den Prädiktoren zusammen mit der Beziehung zur Antwortvariablen zu erfassen.
  • Die PCR kann auch dann eine gute Leistung erbringen, wenn die Prädiktorvariablen stark korreliert sind, da sie Hauptkomponenten erzeugt, die orthogonal (d.h. nicht korreliert) zueinander sind.
  • Für die PCR müssen Sie nicht auswählen, welche Prädiktorvariablen aus dem Modell entfernt werden sollen, da jede Hauptkomponente eine lineare Kombination aller Prädiktorvariablen verwendet.
  • PCR kann verwendet werden, wenn es im Gegensatz zur multiplen linearen Regression mehr Prädiktorvariablen als Beobachtungen gibt.

Die PCR hat jedoch einen Nachteil:

  • Die PCR berücksichtigt die Antwortvariable nicht, wenn entschieden wird, welche Hauptkomponenten aufbewahrt oder fallen gelassen werden sollen. Stattdessen wird nur die Größe der Varianz unter den Prädiktorvariablen berücksichtigt, die von den Hauptkomponenten erfasst werden. In einigen Fällen können die Hauptkomponenten mit den größten Abweichungen die Antwortvariable möglicherweise nicht gut vorhersagen. In der Praxis passen wir viele verschiedene Modelltypen an (PCR, Ridge, Lasso, multiple lineare Regression usw.) und verwenden die k-fache Kreuzvalidierung, um das Modell zu identifizieren, das die niedrigste Test-MSE für neue Daten erzeugt.

In Fällen, in denen Multikollinearität im Originaldatensatz vorhanden ist (was häufig der Fall ist), ist die PCR tendenziell besser als die gewöhnliche Regression der kleinsten Quadrate. Es ist jedoch eine gute Idee, mehrere verschiedene Modelle anzupassen, damit Sie das Modell identifizieren können, das sich am besten auf unsichtbare Daten verallgemeinert.

Regression der Hauptkomponenten in R & Python

Die folgenden Tutorials zeigen, wie die Regression von Hauptkomponenten in R und Python durchgeführt wird:

Regression der Hauptkomponenten in R (Schritt für Schritt)
Regression der Hauptkomponenten in Python (Schritt für Schritt)

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: