Im Bereich des maschinellen Lernens sind wir häufig daran interessiert, Modelle mit einer Reihe von Prädiktorvariablen und einer Antwortvariablen zu erstellen. Unser Ziel ist es, ein Modell zu erstellen, das …
Im Bereich des maschinellen Lernens ist es unser Ziel, ein Modell zu erstellen, das eine Reihe von Prädiktorvariablen effektiv verwenden kann, um den Wert einer Antwortvariablen vorherzusagen.
Angesichts einer Reihe von p Gesamtprädiktorvariablen gibt es viele Modelle, die wir möglicherweise erstellen könnten. Eine Methode, mit der wir das beste Modell auswählen können, ist die Auswahl der besten Teilmenge, bei der versucht wird, aus allen möglichen Modellen, die mit der Menge der Prädiktoren erstellt werden könnten, das beste Modell auszuwählen.
Leider weist diese Methode zwei Nachteile auf:
- Es kann rechenintensiv sein. Für einen Satz von p Prädiktorvariablen gibt es 2 p mögliche Modelle. Bei 10 Prädiktorvariablen sind beispielsweise 2 10 = 1.000 mögliche Modelle zu berücksichtigen.
- Da eine so große Anzahl von Modellen berücksichtigt wird, könnte möglicherweise ein Modell gefunden werden, das bei Trainingsdaten eine gute Leistung erbringt, bei zukünftigen Daten jedoch nicht. Dies kann zu einer Überanpassung (engl. Overfitting) führen.
Eine Alternative zur Auswahl der besten Teilmenge ist die schrittweise Auswahl, bei der eine viel kleinere Menge von Modellen verglichen wird.
Es gibt zwei Arten von schrittweisen Auswahlmethoden: schrittweise Vorwärtsauswahl und schrittweise Rückwärtsauswahl.
Schrittweise Vorwärtsselektion
Die schrittweise Vorwärtsselektion funktioniert wie folgt:
1. M 0 bezeichne das Nullmodell, das keine Prädiktorvariablen enthält.
2. Für k = 0, 2,… p-1:
- Passen Sie alle pk-Modelle an, die die Prädiktoren in M k um eine zusätzliche Prädiktorvariable erweitern.
- Wählen Sie das beste unter diesen pk-Modellen und nennen Sie es M k + 1 . Definieren Sie "am besten" als das Modell mit dem höchsten R 2 oder gleichwertig dem niedrigsten RSS.
3. Wählen Sie aus M 0 … M p ein einzelnes bestes Modell aus, indem Sie den Kreuzvalidierungs-Vorhersagefehler Cp, BIC, AIC oder das angepasste R 2 verwenden.
Schrittweise Rückwärtsselektion
Die schrittweise Rückwärtsselektion funktioniert wie folgt:
1. M p bezeichne das vollständige Modell, das alle p Prädiktorvariablen enthält.
2. Für k = p, p-1,… 1:
- Passen Sie alle k Modelle an, die alle bis auf einen der Prädiktoren in M k enthalten, für insgesamt k-1 Prädiktorvariablen.
- Wählen Sie das beste dieser k Modelle aus und nennen Sie es M k-1. Definieren Sie "am besten" als das Modell mit dem höchsten R 2 oder gleichwertig dem niedrigsten RSS.
3. Wählen Sie aus M 0 … M p ein einzelnes bestes Modell aus, indem Sie den Kreuzvalidierungs-Vorhersagefehler Cp, BIC, AIC oder das angepasste R 2 verwenden.
Kriterien für die Auswahl des „besten“ Modells
Der letzte Schritt der schrittweisen Vorwärts- und Rückwärtsauswahl umfasst die Auswahl des Modells mit dem niedrigsten Vorhersagefehler, dem niedrigsten Cp, dem niedrigsten BIC, dem niedrigsten AIC oder dem höchsten angepassten R 2.
Hier sind die Formeln, die zur Berechnung jeder dieser Metriken verwendet werden:
Cp: (RSS + 2dσ̂) / n
AIC: (RSS + 2dσ̂ 2 ) / (nσ̂ 2 )
BIC: (RSS + log (n) dσ̂ 2 ) / n
Angepasstes R 2: 1 - ((RSS / (nd-1)) / (TSS / (n-1)))
wo:
- d: Die Anzahl der Prädiktoren
- n: Gesamtbeobachtungen
- σ̂: Schätzung der Varianz des Fehlers, der mit jeder Antwortmessung in einem Regressionsmodell assoziiert ist
- RSS: Residuenquadratsumme des Regressionsmodells
- TSS: Gesamtsumme der Quadrate des Regressionsmodells
Vor- und Nachteile der schrittweisen Auswahl
Die schrittweise Auswahl bietet den folgenden Vorteil:
Es ist rechnerisch effizienter als die Auswahl der besten Teilmenge. Bei gegebenen _p-_Prädiktorvariablen muss die beste Teilmengenauswahl für 2 p- Modelle passen.
Umgekehrt muss die schrittweise Auswahl nur für 1 + p (p + 1) / 2-Modelle passen. Für p = 10 Prädiktorvariablen muss die beste Teilmengenauswahl für 1.000 Modelle passen, während die schrittweise Auswahl nur für 56 Modelle passen muss.
Die schrittweise Auswahl hat jedoch den folgenden möglichen Nachteil:
Es ist nicht garantiert, das bestmögliche Modell aus allen 2 p potenziellen Modellen zu finden.
Angenommen, wir haben einen Datensatz mit p = 3 Prädiktoren. Das bestmögliche Ein-Prädiktor-Modell kann x 1 enthalten, und das bestmögliche Zwei-Prädiktor-Modell kann stattdessen x 1 und x 2 enthalten.
In diesem Fall kann bei der schrittweisen Vorwärtsauswahl nicht das bestmögliche Zwei-Prädiktor-Modell ausgewählt werden, da M 1 x 1 enthält, sodass M 2 neben einer anderen Variablen auch x 1 enthalten muss.