Eines der häufigsten Probleme beim maschinellen Lernen ist die Multikollinearität. Dies tritt auf, wenn zwei oder mehr Prädiktorvariablen in einem Datensatz stark korrelieren.
In diesem Fall kann ein Modell möglicherweise …
Eines der häufigsten Probleme beim Erstellen von Modellen ist die Multikollinearität. Dies tritt auf, wenn zwei oder mehr Prädiktorvariablen in einem Datensatz stark korreliert sind.
In diesem Fall kann ein bestimmtes Modell möglicherweise gut zu einem Trainingsdatensatz passen, aber bei einem neuen Datensatz, den es noch nie gesehen hat, ist die Leistung wahrscheinlich schlecht, da es dem Trainingssatz überangepasst ist.
Eine Möglichkeit, eine Überanpassung zu vermeiden, besteht in der Verwendung einer Teilmengenauswahlmethode wie:
Diese Methoden versuchen, irrelevante Prädiktoren aus dem Modell zu entfernen, sodass im endgültigen Modell nur die wichtigsten Prädiktoren übrig bleiben, die in der Lage sind, die Variation der Antwortvariablen vorherzusagen.
Eine andere Möglichkeit, eine Überanpassung zu vermeiden, besteht in der Verwendung einer Regularisierungsmethode wie:
Diese Methoden versuchen, die Koeffizienten eines Modells zu beschränken oder zu regulieren, um die Varianz zu verringern, und erzeugen so Modelle, die sich gut auf neue Daten verallgemeinern lassen.
Ein völlig anderer Ansatz zum Umgang mit Multikollinearität ist als Dimensionsreduktion bekannt.
Eine übliche Methode zur Dimensionsreduktion ist die Hauptkomponentenregression, die wie folgt funktioniert:
1. Angenommen, ein gegebener Datensatz enthält p Prädiktoren: X 1 , X 2 ,…, X p
2. Berechnen Sie Z 1 ,…, Z M als die M linearen Kombinationen der ursprünglichen p-Prädiktoren.
Die Reduzierung der Phrasendimension ergibt sich aus der Tatsache, dass bei dieser Methode nur M + 1-Koeffizienten anstelle von p + 1-Koeffizienten geschätzt werden müssen, wobei M <p ist.
Mit anderen Worten wurde die Dimension des Problems von p + 1 auf M + 1 reduziert.
In vielen Fällen, in denen Multikollinearität in einem Datensatz vorhanden ist, kann die Hauptkomponentenregression ein Modell erzeugen, das sich besser auf neue Daten verallgemeinern lässt als die herkömmliche multiple lineare Regression.
In der Praxis werden die folgenden Schritte verwendet, um eine Regression der Hauptkomponenten durchzuführen:
1. Standardisieren Sie die Prädiktoren.
Zunächst standardisieren wir die Daten normalerweise so, dass jede Prädiktorvariable einen Mittelwert von 0 und eine Standardabweichung von 1 hat. Dies verhindert, dass ein Prädiktor einen übermäßigen Einfluss hat, insbesondere wenn er in verschiedenen Einheiten gemessen wird (d.h. wenn X 1 in Zoll gemessen wird und X 2 wird in Yards gemessen).
2. Berechnen Sie die Hauptkomponenten und führen Sie eine lineare Regression durch, indem Sie die Hauptkomponenten als Prädiktoren verwenden.
Als nächstes berechnen wir die Hauptkomponenten und verwenden die Methode der kleinsten Quadrate, um ein lineares Regressionsmodell unter Verwendung der ersten M Hauptkomponenten Z 1 ,…, Z M als Prädiktoren anzupassen.
3. Entscheiden Sie, wie viele Hauptkomponenten aufbewahrt werden sollen.
Als nächstes verwenden wir die k-fache Kreuzvalidierung, um die optimale Anzahl von Hauptkomponenten zu finden, die im Modell beibehalten werden sollen. Die „optimale“ Anzahl der zu behaltenden Hauptkomponenten ist normalerweise die Anzahl, die den niedrigsten mittleren quadratischen Testfehler (MSE) erzeugt.
Principal Components Regression (PCR) bietet die folgenden Vorteile:
Die PCR hat jedoch einen Nachteil:
In Fällen, in denen Multikollinearität im Originaldatensatz vorhanden ist (was häufig der Fall ist), ist die PCR tendenziell besser als die gewöhnliche Regression der kleinsten Quadrate. Es ist jedoch eine gute Idee, mehrere verschiedene Modelle anzupassen, damit Sie das Modell identifizieren können, das sich am besten auf unsichtbare Daten verallgemeinert.
Die folgenden Tutorials zeigen, wie die Regression von Hauptkomponenten in R und Python durchgeführt wird:
Regression der Hauptkomponenten in R (Schritt für Schritt)
Regression der Hauptkomponenten in Python (Schritt für Schritt)
Eines der häufigsten Probleme beim maschinellen Lernen ist die Multikollinearität. Dies tritt auf, wenn zwei oder mehr Prädiktorvariablen in einem Datensatz stark korrelieren.
In diesem Fall kann ein Modell möglicherweise …