Wenn wir einen Datensatz mit einer Prädiktorvariablen und einer Antwortvariablen haben, verwenden wir häufig eine einfache lineare Regression, um die Beziehung zwischen den beiden Variablen zu quantifizieren.

Bei der einfachen linearen Regression (SLR) wird jedoch davon ausgegangen, dass die Beziehung zwischen dem Prädiktor und der Antwortvariablen linear ist. In mathematischer Notation geschrieben, nimmt SLR an, dass die Beziehung die Form annimmt:

Y = β 0 + β 1 X + ε

In der Praxis kann die Beziehung zwischen den beiden Variablen jedoch tatsächlich nichtlinear sein, und der Versuch, eine lineare Regression zu verwenden, kann zu einem schlecht passenden Modell führen.

Eine Möglichkeit, eine nichtlineare Beziehung zwischen dem Prädiktor und der Antwortvariablen zu berücksichtigen, besteht in der Verwendung der polynomiale Regression in folgender Form:

Y = β 0 + β 1 X + β 2 X 2 +… + β h X h + ε

In dieser Gleichung wird h als Grad des Polynoms bezeichnet.

Wenn wir den Wert für h erhöhen, kann sich das Modell an nichtlineare Beziehungen besser anpassen, aber in der Praxis wählen wir h selten größer als 3 oder 4. Über diesen Punkt hinaus wird das Modell zu flexibel und ist an die Daten überangepasst.

Technische Hinweise

  • Obwohl die polynomiale Regression zu nichtlinearen Daten passen kann, wird sie immer noch als eine Form der linearen Regression angesehen, da sie in den Koeffizienten β 1 , β 2 ,…, β h linear ist.
  • Die polynomiale Regression kann auch für mehrere Prädiktorvariablen verwendet werden, dies erzeugt jedoch Interaktionsterme im Modell, was das Modell extrem komplex machen kann, wenn mehr als einige Prädiktorvariablen verwendet werden.

Wann wird die polynomiale Regression verwendet?

Wir verwenden die polynomiale Regression, wenn die Beziehung zwischen einem Prädiktor und einer Antwortvariablen nichtlinear ist.

Es gibt drei gängige Methoden, um eine nichtlineare Beziehung zu erkennen:

1. Erstellen Sie ein Streudiagramm.

Der einfachste Weg, eine nichtlineare Beziehung zu erkennen, besteht darin, ein Streudiagramm der Antwort-Prädiktor-Variablen zu erstellen.

Wenn wir beispielsweise das folgende Streudiagramm erstellen, können wir sehen, dass die Beziehung zwischen den beiden Variablen ungefähr linear ist, sodass eine einfache lineare Regression für diese Daten wahrscheinlich gut funktioniert.

Polynomexcel

Wenn unser Streudiagramm jedoch wie eines der folgenden Diagramme aussieht, können wir sehen, dass die Beziehung nichtlinear ist und daher eine polynomielle Regression eine gute Idee wäre:

Polynomexcel

Polynomexcel

2. Erstellen Sie ein Residuum vs. angepasstes Diagramm.

Eine andere Möglichkeit, Nichtlinearität zu erkennen, besteht darin, ein einfaches lineares Regressionsmodell an die Daten anzupassen und dann ein Diagramm mit Residuen und angepassten Werten zu erstellen.

Wenn die Residuen des Diagramms ohne klares Muster ungefähr gleichmäßig um Null verteilt sind, ist eine einfache lineare Regression wahrscheinlich ausreichend.

Wenn die Residuen jedoch ein nichtlineares Muster im Diagramm anzeigen, ist dies ein Zeichen dafür, dass die Beziehung zwischen dem Prädiktor und der Antwort wahrscheinlich nichtlinear ist.

3. Berechnen Sie das R 2 des Modells.

Der R 2-Wert eines Regressionsmodells gibt den Prozentsatz der Variation in der Antwortvariablen an, der durch die Prädiktorvariablen erklärt werden kann.

Wenn Sie ein einfaches lineares Regressionsmodell an einen Datensatz anpassen und der R 2-Wert des Modells recht niedrig ist, kann dies ein Hinweis darauf sein, dass die Beziehung zwischen Prädiktor und Antwortvariable komplexer ist als nur eine einfache lineare Beziehung.

Dies könnte ein Zeichen dafür sein, dass Sie stattdessen möglicherweise eine polynomiale Regression versuchen müssen.

Verwandt:Was ist ein guter R-Quadrat-Wert?

So wählen Sie den Grad des Polynoms

Ein polynomielles Regressionsmodell hat die folgende Form:

Y = β 0 + β 1 X + β 2 X 2 +… + β h X h + ε

In dieser Gleichung ist h der Grad des Polynoms.

Aber wie wählen wir einen Wert für h ?

In der Praxis passen wir mehrere verschiedene Modelle mit unterschiedlichen Werten von h an und führen eine k-fache Kreuzvalidierung durch, um zu bestimmen, welches Modell den niedrigsten mittleren quadratischen Testfehler (MSE) erzeugt.

Beispielsweise können wir die folgenden Modelle an einen bestimmten Datensatz anpassen:

  • Y = β 0 + β 1 X.
  • Y = β 0 + β 1 X + β 2 X 2
  • Y = β 0 + β 1 X + β 2 X 2 + β 3 X 3
  • Y = β 0 + β 1 X + β 2 X 2 + β 3 X 3 + β 4 X 4

Wir können dann die k-fache Kreuzvalidierung verwenden, um die Test-MSE jedes Modells zu berechnen. Dies zeigt uns, wie gut jedes Modell mit Daten abschneidet, die es zuvor noch nicht gesehen hat.

Der Bias-Varianz-Kompromiss der polynomiale Regression

Bei Verwendung der polynomiale Regression besteht ein Kompromiss zwischen Bias und Varianz. Wenn wir den Grad des Polynoms erhöhen, nimmt die Vorspannung ab (wenn das Modell flexibler wird), aber die Varianz nimmt zu.

Wie bei allen Modellen des maschinellen Lernens müssen wir einen optimalen Kompromiss zwischen Verzerrung und Varianz finden.

In den meisten Fällen hilft es, den Grad des Polynoms bis zu einem gewissen Grad zu erhöhen, aber ab einem bestimmten Wert beginnt das Modell, sich dem Rauschen der Daten anzupassen, und die Test-MSE beginnt abzunehmen.

Um sicherzustellen, dass wir ein Modell anpassen, das flexibel, aber nicht zu flexibel ist, verwenden wir die k-fache Kreuzvalidierung, um das Modell zu finden, das die niedrigste Test-MSE erzeugt.

Durchführen einer polynomiale Regression

Die folgenden Tutorials enthalten Beispiele für die Durchführung einer polynomiale Regression in verschiedenen Softwareprogrammen:

Durchführen einer polynomiale Regression in Excel
Durchführen einer polynomiale Regression in R
Durchführen einer polynomiale Regression in Python

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: