Einführung in die Ridge Regression

Von Fabian
Kategorie: Machine Learning
Lesezeit: 5 Minuten

Bei der gewöhnlichen multiplen linearen Regression verwenden verwenden wir einen Datensatz von p Prädiktorvariablen und eine Antwortvariable, um ein Modell anzupassen:

Y = β 0 + β 1 X 1 + β 2 X 2 +… + β p X p + ε

wo:

  • Y: Die Antwortvariable
  • X j: Die j-te Prädiktorvariable
  • β j: Der durchschnittliche Effekt einer Erhöhung von X j um eine Einheit auf Y, wobei alle anderen Prädiktoren festgehalten werden
  • ε: Der Fehlerterm

Die Werte für β 0 , β 1 , B 2 ,…, β p werden nach der Methode der kleinsten Quadrate ausgewählt, die die Summe der quadratischen Residuen (RSS) minimiert:

RSS = Σ (y i - ŷ i ) 2

wo:

  • Σ: Ein griechisches Symbol, das Summe bedeutet
  • y i: Der tatsächliche Antwortwert für die i-te Beobachtung
  • ŷ i: Der vorhergesagte Antwortwert basierend auf dem multiplen linearen Regressionsmodell

Wenn die Prädiktorvariablen jedoch stark korreliert sind, kann Multikollinearität zu einem Problem werden. Dies kann dazu führen, dass die Koeffizientenschätzungen des Modells unzuverlässig sind und eine hohe Varianz aufweisen.

Eine Möglichkeit, dieses Problem zu umgehen, ohne einige Prädiktorvariablen vollständig aus dem Modell zu entfernen, besteht darin, eine als Ridge-Regression bekannte Methode zu verwenden, mit der stattdessen Folgendes minimiert werden soll:

RSS + λΣβ j 2

wobei j im Bereich von 1 bis p liegt und λ ≥ 0 ist.

Dieser zweite Term in der Gleichung ist als Shrinkage Penalty bekannt.

Wenn λ = 0 ist, hat dieser Strafausdruck keine Auswirkung und die Gratregression erzeugt die gleichen Koeffizientenschätzungen wie die kleinsten Quadrate. Wenn sich jedoch λ der Unendlichkeit nähert, wird die Schrumpfungsstrafe einflussreicher und die Schätzungen des Gratregressionskoeffizienten nähern sich Null.

Im Allgemeinen schrumpfen die Prädiktorvariablen, die im Modell am wenigsten Einfluss haben, am schnellsten gegen Null.

Warum Ridge Regression verwenden?

Der Vorteil der Gratregression gegenüber der Regression der kleinsten Quadrate liegt im Kompromiss zwischen Bias und Varianz.

Denken Sie daran, dass der mittlere quadratische Fehler (MSE) eine Metrik ist, mit der wir die Genauigkeit eines bestimmten Modells messen können. Sie wird wie folgt berechnet:

MSE = Var ( f̂ ( x 0 )) + [Bias ( f̂ ( x 0 ))] 2 + Var (ε)

MSE = Varianz + Vorspannung 2 + nicht reduzierbarer Fehler

Die Grundidee der Gratregression besteht darin, eine kleine Verzerrung einzuführen, damit die Varianz wesentlich verringert werden kann, was zu einer niedrigeren Gesamt-MSE führt.

Betrachten Sie zur Veranschaulichung die folgende Tabelle:

Ridge Regression Bias-Varianz-Kompromiss

Beachten Sie, dass mit zunehmendem λ die Varianz mit sehr geringer Zunahme der Vorspannung erheblich abnimmt. Ab einem bestimmten Punkt nimmt die Varianz jedoch weniger schnell ab und die Schrumpfung der Koeffizienten führt dazu, dass sie erheblich unterschätzt werden, was zu einem starken Anstieg der Vorspannung führt.

Wir können dem Diagramm entnehmen, dass die Test-MSE am niedrigsten ist, wenn wir einen Wert für λ wählen, der einen optimalen Kompromiss zwischen Bias und Varianz ergibt.

Wenn λ = 0 ist, hat der Strafausdruck bei der Gratregression keine Auswirkung und erzeugt daher die gleichen Koeffizientenschätzungen wie die kleinsten Quadrate. Durch Erhöhen von λ auf einen bestimmten Punkt können wir jedoch die Gesamttest-MSE reduzieren.

Ridge-Regressionstest MSE-Reduktion

Dies bedeutet, dass die Modellanpassung durch Gratregression kleinere Testfehler erzeugt als die Modellanpassung durch Regression der kleinsten Quadrate.

Schritte zur Durchführung einer Ridge-Regression in der Praxis

Die folgenden Schritte können verwendet werden, um eine Gratregression durchzuführen:

Schritt 1: Berechnen Sie die Korrelationsmatrix und die VIF-Werte für die Prädiktorvariablen.

Zunächst sollten wir eine Korrelationsmatrix erstellen und die VIF-Werte (Varianzinflationsfaktor) für jede Prädiktorvariable berechnen.

Wenn wir eine hohe Korrelation zwischen Prädiktorvariablen und hohen VIF-Werten feststellen (einige Texte definieren einen „hohen“ VIF-Wert als 5, während andere 10 verwenden), ist eine Ridge-Regression wahrscheinlich angemessen.

Wenn jedoch keine Multikollinearität in den Daten vorhanden ist, besteht möglicherweise überhaupt keine Notwendigkeit, eine Gratregression durchzuführen. Stattdessen können wir eine gewöhnliche Regression der kleinsten Quadrate durchführen.

Schritt 2: Standardisieren Sie jede Prädiktorvariable.

Bevor wir eine Gratregression durchführen, sollten wir die Daten so skalieren, dass jede Prädiktorvariable einen Mittelwert von 0 und eine Standardabweichung von 1 hat. Dies stellt sicher, dass keine einzelne Prädiktorvariable einen übermäßigen Einfluss auf die Gratregression hat.

Schritt 3: Passen Sie das Gratregressionsmodell an und wählen Sie einen Wert für λ.

Es gibt keine genaue Formel, mit der wir bestimmen können, welcher Wert für λ verwendet werden soll. In der Praxis gibt es zwei gängige Möglichkeiten, wie wir λ wählen:

(1) Erstellen Sie ein Ridge-Trace-Diagramm. Dies ist ein Diagramm, das die Werte der Koeffizientenschätzungen visualisiert, wenn λ gegen unendlich ansteigt. Typischerweise wählen wir λ als Wert, bei dem sich die meisten Koeffizientenschätzungen zu stabilisieren beginnen.

Ridge Trace Plot

(2) Berechnen Sie die Test-MSE für jeden Wert von λ.

Eine andere Möglichkeit, λ zu wählen, besteht darin, einfach die Test-MSE jedes Modells mit unterschiedlichen Werten von λ zu berechnen und λ als den Wert zu wählen, der die niedrigste Test-MSE erzeugt.

Vor- und Nachteile der Ridge Regression

Der größte Vorteil der Gratregression ist ihre Fähigkeit, einen niedrigeren mittleren quadratischen Testfehler (MSE) im Vergleich zur Regression der kleinsten Quadrate zu erzeugen, wenn Multikollinearität vorliegt.

Der größte Nachteil der Gratregression ist jedoch die Unfähigkeit, eine Variablenauswahl durchzuführen, da alle Prädiktorvariablen im endgültigen Modell enthalten sind. Da einige Prädiktoren sehr nahe an Null geschrumpft werden, kann es schwierig sein, die Ergebnisse des Modells zu interpretieren.

In der Praxis hat die Gratregression das Potenzial, ein Modell zu erstellen, das im Vergleich zu einem Modell der kleinsten Quadrate bessere Vorhersagen treffen kann, aber es ist oft schwieriger, die Ergebnisse des Modells zu interpretieren.

Abhängig davon, ob Ihnen die Modellinterpretation oder die Vorhersagegenauigkeit wichtiger ist, können Sie in verschiedenen Szenarien gewöhnliche kleinste Quadrate oder Gratregression verwenden.

Ridge Regression in R & Python

In den folgenden Tutorials wird erläutert, wie Sie eine Ridge-Regression in R und Python durchführen, den beiden am häufigsten verwendeten Sprachen zum Anpassen von Ridge-Regressionsmodellen:

Ridge Regression in R (Schritt für Schritt)
Ridge Regression in Python (Schritt für Schritt)

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: