Im Bereich des maschinellen Lernens ist es unser Ziel, ein Modell zu erstellen, das eine Reihe von Prädiktorvariablen effektiv verwenden kann, um den Wert einer Antwortvariablen vorherzusagen.
Angesichts einer Reihe …
Im Bereich des maschinellen Lernens sind wir häufig daran interessiert, Modelle mit einer Reihe von Prädiktorvariablen und einer Antwortvariablen zu erstellen. Unser Ziel ist es, ein Modell zu erstellen, das die Prädiktorvariablen effektiv verwenden kann, um den Wert der Antwortvariablen vorherzusagen.
Angesichts einer Reihe von p Gesamtprädiktorvariablen gibt es viele Modelle, die wir möglicherweise erstellen könnten. Eine Methode, mit der wir das beste Modell auswählen können, ist als beste Teilmengenauswahl bekannt und funktioniert wie folgt:
1. M 0 bezeichne das Nullmodell, das keine Prädiktorvariablen enthält.
2. Für k = 1, 2,… p:
3. Wählen Sie aus M 0 … M p ein einzelnes bestes Modell aus, indem Sie den Kreuzvalidierungs-Vorhersagefehler Cp, BIC, AIC oder das angepasste R 2 verwenden.
Beachten Sie, dass es für einen Satz von p Prädiktorvariablen 2 p mögliche Modelle gibt.
Angenommen, wir haben einen Datensatz mit p = 3 Prädiktorvariablen und einer Antwortvariablen, y. Um mit diesem Datensatz die beste Teilmengenauswahl durchzuführen, passen wir die folgenden 2 p = 2 3 = 8 Modelle an:
Als nächstes würden wir das Modell mit dem höchsten R 2 unter jedem Satz von Modellen mit k Prädiktoren auswählen. Zum Beispiel könnten wir am Ende wählen:
Als nächstes führen wir eine Kreuzvalidierung durch und wählen das beste Modell aus, das den niedrigsten Vorhersagefehler (Cp, BIC, AIC oder angepasstes R 2) ergibt.
Zum Beispiel könnten wir am Ende das folgende Modell als das „beste“ Modell auswählen, weil es den niedrigsten kreuzvalidierten Vorhersagefehler erzeugt hat:
Der letzte Schritt der Auswahl der besten Teilmenge umfasst die Auswahl des Modells mit dem niedrigsten Vorhersagefehler, dem niedrigsten Cp, dem niedrigsten BIC, dem niedrigsten AIC oder dem höchsten angepassten R 2.
Hier sind die Formeln, die zur Berechnung jeder dieser Metriken verwendet werden:
Cp: (RSS + 2dσ̂) / n
AIC: (RSS + 2dσ̂ 2 ) / (nσ̂ 2 )
BIC: (RSS + log (n) dσ̂ 2 ) / n
Angepasstes R 2: 1 - ((RSS / (nd-1)) / (TSS / (n-1)))
wo:
Die beste Auswahl von Teilmengen bietet die folgenden Vorteile:
Diese Methode hat jedoch die folgenden Nachteile:
Die Auswahl der besten Teilmenge ist zwar einfach zu implementieren und zu verstehen, kann jedoch nicht durchführbar sein, wenn Sie mit einem Datensatz arbeiten, der eine große Anzahl von Prädiktoren enthält, und dies kann möglicherweise zu einer Überanpassung führen.
Eine Alternative zu dieser Methode ist die schrittweise Auswahl, die rechnerisch effizienter ist.
Im Bereich des maschinellen Lernens ist es unser Ziel, ein Modell zu erstellen, das eine Reihe von Prädiktorvariablen effektiv verwenden kann, um den Wert einer Antwortvariablen vorherzusagen.
Angesichts einer Reihe …