Eines der häufigsten Probleme beim maschinellen Lernen ist die Multikollinearität. Dies tritt auf, wenn zwei oder mehr Prädiktorvariablen in einem Datensatz stark korrelieren.

In diesem Fall kann ein Modell möglicherweise gut zu einem Trainingsdatensatz passen, bei einem neuen Datensatz, den es noch nie gesehen hat, kann es jedoch eine schlechte Leistung erbringen, da es den Trainingssatz überanpasst ist (overfitted).

Eine Möglichkeit, das Problem der Multikollinearität zu umgehen, besteht in der Verwendung der Hauptkomponentenregression, die M lineare Kombinationen (als „Hauptkomponenten“ bezeichnet) der ursprünglichen p Prädiktorvariablen berechnet und dann die Methode der kleinsten Quadrate verwendet, um ein lineares Regressionsmodell unter Verwendung von anzupassen die Hauptkomponenten als Prädiktoren.

Der Nachteil der Hauptkomponentenregression (engl. Principal Component Regression, kurz PCR) besteht darin, dass die Antwortvariable bei der Berechnung der Hauptkomponenten nicht berücksichtigt wird.

Stattdessen wird nur die Größe der Varianz unter den Prädiktorvariablen berücksichtigt, die von den Hauptkomponenten erfasst werden. Aus diesem Grund ist es möglich, dass in einigen Fällen die Hauptkomponenten mit den größten Abweichungen die Antwortvariable nicht gut vorhersagen können.

Eine Technik, die mit der PCR zusammenhängt, ist als partielle-kleinste-Quadrate-Methode bekannt. Ähnlich wie bei der PCR berechnen partielle kleinste Quadrate M lineare Kombinationen (bekannt als "PLS-Komponenten") der ursprünglichen p Prädiktorvariablen und verwenden die Methode der kleinsten Quadrate, um ein lineares Regressionsmodell unter Verwendung der PLS-Komponenten als Prädiktoren anzupassen.

Im Gegensatz zur PCR versucht die partielle-kleinste-Quadrate-Methode jedoch, lineare Kombinationen zu finden, die die Variation sowohl der Antwortvariablen als auch der Prädiktorvariablen erklären.

Schritte zum Durchführen der partiellen-kleinste-Quadrate-Methode

In der Praxis werden die folgenden Schritte verwendet, um partielle kleinste Quadrate durchzuführen.

1. Standardisieren Sie die Daten so, dass alle Prädiktorvariablen und die Antwortvariable einen Mittelwert von 0 und eine Standardabweichung von 1 haben. Dadurch wird sichergestellt, dass jede Variable auf derselben Skala gemessen wird.

2. Berechnen Sie Z 1 ,…, Z M als die M linearen Kombinationen der ursprünglichen p Prädiktoren.

  • Z m = ΣΦ jm X j für einige Konstanten Φ 1m , Φ 2m , Φ pm , m = 1,…, M.
  • Um Z 1 zu berechnen, setzen Sie Φ j1 gleich dem Koeffizienten aus der einfachen linearen Regression von Y auf X j. Dies ist die lineare Kombination der Prädiktoren, die die größtmögliche Varianz erfasst.
  • Um Z 2 zu berechnen, regressieren Sie jede Variable auf Z 1 und nehmen Sie die Residuen. Berechnen Sie dann Z 2 unter Verwendung dieser orthogonalisierten Daten genauso wie Z 1 berechnet wurde.
  • Wiederholen Sie diesen Vorgang M-mal, um die M PLS-Komponenten zu erhalten.

3. Verwenden Sie die Methode der kleinsten Quadrate, um ein lineares Regressionsmodell unter Verwendung der PLS-Komponenten Z 1 ,…, Z M als Prädiktoren anzupassen.

4. Verwenden Sie zum Schluss die k-fache Kreuzvalidierung, um die optimale Anzahl von PLS-Komponenten zu finden, die im Modell beibehalten werden sollen. Die „optimale“ Anzahl der zu behaltenden PLS-Komponenten ist normalerweise die Anzahl, die den niedrigsten mittleren quadratischen Testfehler (MSE) erzeugt.

Fazit

In Fällen, in denen Multikollinearität in einem Datensatz vorhanden ist, sind partielle kleinste Quadrate tendenziell besser als die gewöhnliche Regression kleinster Quadrate. Es ist jedoch eine gute Idee, mehrere verschiedene Modelle anzupassen, damit wir das Modell identifizieren können, das sich am besten auf unsichtbare Daten verallgemeinert.

In der Praxis passen wir viele verschiedene Modelltypen (PLS, PCR, Ridge, Lasso, multiple lineare Regression usw.) an einen Datensatz an und verwenden die k-fache Kreuzvalidierung, um das Modell zu identifizieren, das den niedrigste Test-MSE für neue Daten erzeugt.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: