Eine Einführung in multivariate adaptive Regressionssplines

Wenn die Beziehung zwischen einem Satz von Prädiktorvariablen und einer Antwortvariablen linear ist, können wir häufig eine lineare Regression verwenden, die davon ausgeht, dass die Beziehung zwischen einer bestimmten Prädiktorvariablen und einer Antwortvariablen die Form annimmt:

Y = β ₀ + β ₁ X + ε

In der Praxis kann die Beziehung zwischen den Variablen jedoch tatsächlich nichtlinear sein, und der Versuch, eine lineare Regression zu verwenden, kann zu einem schlecht passenden Modell führen.

Eine Möglichkeit, eine nichtlineare Beziehung zwischen dem Prädiktor und der Antwortvariablen zu berücksichtigen, besteht in der Verwendung der Polynomregression in folgender Form:

Y = β ₀ + β ₁ X + β ₂ X ² +… + β _h X ^h + ε

In dieser Gleichung wird h als "Grad" des Polynoms bezeichnet. Wenn wir den Wert für h erhöhen, wird das Modell flexibler und kann nichtlineare Daten anpassen.

Die Polynomregression hat jedoch einige Nachteile:

1. Die Polynomregression kann einen Datensatz leicht überanpassen, wenn der Grad h zu groß gewählt wird. In der Praxis ist h selten größer als 3 oder 4, da es über diesen Punkt hinaus einfach zum Rauschen eines Trainingssatzes passt und sich nicht gut auf unsichtbare Daten verallgemeinern lässt.

2. Die Polynomregression legt dem gesamten Datensatz eine globale Funktion auf, die nicht immer genau ist.

Eine Alternative zur Polynomregression sind multivariate adaptive Regressionssplines.

Die Grundidee

Multivariate adaptive Regressionssplines funktionieren wie folgt:

1. Teilen Sie einen Datensatz in k Teile.

Zuerst teilen wir einen Datensatz in k verschiedene Teile. Die Punkte, an denen wir den Datensatz teilen, werden als Knoten bezeichnet.

Wir identifizieren die Knoten, indem wir jeden Punkt für jeden Prädiktor als potenziellen Knoten bewerten und unter Verwendung der Kandidatenmerkmale ein lineares Regressionsmodell erstellen. Der Punkt, der den meisten Fehler im Modell reduzieren kann, wird als Knoten angesehen.

Sobald wir den ersten Knoten identifiziert haben, wiederholen wir den Vorgang, um zusätzliche Knoten zu finden. Sie können so viele Knoten finden, wie Sie für sinnvoll halten, um zu beginnen.

2. Passen Sie an jedes Stück eine Regressionsfunktion an, um eine Scharnierfunktion zu bilden.

Sobald wir die Knoten ausgewählt und ein Regressionsmodell an jedes Teil des Datensatzes angepasst haben, bleibt etwas übrig, das als Scharnierfunktion bezeichnet wird und als h (xa) bezeichnet wird , wobei a der / die Schnittpunktwert (e) ist.

Beispielsweise kann die Scharnierfunktion für ein Modell mit einem Knoten wie folgt sein:

y = β ₀ + β ₁ (4,3 - x), wenn x <4,3
y = β ₀ + β ₁ (x - 4,3), wenn x> 4,3

In diesem Fall wurde festgestellt, dass durch Auswahl von 4,3 als Schnittpunktwert der Fehler unter allen möglichen Schnittpunktwerten am meisten reduziert werden konnte. Wir passen dann ein anderes Regressionsmodell an die Werte unter 4,3 an, verglichen mit Werten über 4,3.

Eine Scharnierfunktion mit zwei Knoten kann wie folgt sein:

y = β ₀ + β ₁ (4,3 - x), wenn x <4,3
y = β ₀ + β ₁ (x - 4,3), wenn x> 4,3 & x <6,7
y = β ₀ + β ₁ (6,7 - x), wenn x> 6,7

In diesem Fall wurde festgestellt, dass durch Auswahl von 4.3 und 6.7 als Schnittpunktwerte der Fehler unter allen möglichen Schnittpunktwerten am besten reduziert werden konnte. Wir passen dann ein Regressionsmodell an Werte unter 4,3, ein anderes Regressionsmodell an Werte zwischen 4,3 und 6,7 und ein anderes Regressionsmodell an Werte über 4,3 an.

3. Wählen Sie k basierend auf der k-fachen Kreuzvalidierung.

Sobald wir mehrere verschiedene Modelle mit einer unterschiedlichen Anzahl von Knoten für jedes Modell angepasst haben, können wir eine k-fache Kreuzvalidierung durchführen, um das Modell zu identifizieren, das den niedrigsten mittleren Testfehler (MSE) erzeugt.

Das Modell mit der niedrigsten Test-MSE wird als das Modell ausgewählt, das sich am besten auf neue Daten verallgemeinert.

Vor- und Nachteile

Multivariate adaptive Regressionssplines haben folgende Vor- und Nachteile:

Vorteile:

Es kann sowohl für Regressions- als auch für Klassifizierungsprobleme verwendet werden.
Es funktioniert gut bei großen Datenmengen.
Es bietet eine schnelle Berechnung.
Sie müssen die Prädiktorvariablen nicht standardisieren.

Nachteile:

Es funktioniert tendenziell nicht so gut wie nichtlineare Methoden wie zufällige Wälder und Maschinen zur Erhöhung des Gradienten.

So passen Sie MARS-Modelle in R & Python an

Die folgenden Tutorials enthalten schrittweise Beispiele für die Anpassung multivariater adaptiver Regressionssplines (MARS) in R und Python:

Multivariate adaptive Regressionssplines in R
Multivariate adaptive Regressionssplines in Python

Die Grundidee

Vor- und Nachteile

So passen Sie MARS-Modelle in R & Python an

Statistik: Der Weg zur Datenanalyse

Eine Einführung in die polynomiale Regression