Im Bereich des maschinellen Lernens sind wir häufig daran interessiert, Modelle mit einer Reihe von Prädiktorvariablen und einer Antwortvariablen zu erstellen. Unser Ziel ist es, ein Modell zu erstellen, das die Prädiktorvariablen effektiv verwenden kann, um den Wert der Antwortvariablen vorherzusagen.

Angesichts einer Reihe von p Gesamtprädiktorvariablen gibt es viele Modelle, die wir möglicherweise erstellen könnten. Eine Methode, mit der wir das beste Modell auswählen können, ist als beste Teilmengenauswahl bekannt und funktioniert wie folgt:

1. M 0 bezeichne das Nullmodell, das keine Prädiktorvariablen enthält.

2. Für k = 1, 2,… p:

  • Passen Sie alle p C k -Modelle an, die genau k Prädiktoren enthalten.
  • Wählen Sie das beste unter diesen p C k -Modellen aus und nennen Sie es M k. Definieren Sie "am besten" als das Modell mit dem höchsten R 2 oder gleichwertig dem niedrigsten RSS.

3. Wählen Sie aus M 0 … M p ein einzelnes bestes Modell aus, indem Sie den Kreuzvalidierungs-Vorhersagefehler Cp, BIC, AIC oder das angepasste R 2 verwenden.

Beachten Sie, dass es für einen Satz von p Prädiktorvariablen 2 p mögliche Modelle gibt.

Beispiel für die Auswahl der besten Teilmenge

Angenommen, wir haben einen Datensatz mit p = 3 Prädiktorvariablen und einer Antwortvariablen, y. Um mit diesem Datensatz die beste Teilmengenauswahl durchzuführen, passen wir die folgenden 2 p = 2 3 = 8 Modelle an:

  • Ein Modell ohne Prädiktoren
  • Ein Modell mit Prädiktor x 1
  • Ein Modell mit Prädiktor x 2
  • Ein Modell mit Prädiktor x 3
  • Ein Modell mit Prädiktoren x 1 , x 2
  • Ein Modell mit Prädiktoren x 1 , x 3
  • Ein Modell mit Prädiktoren x 2 , x 3
  • Ein Modell mit Prädiktoren x 1 , x 2 , x 3

Als nächstes würden wir das Modell mit dem höchsten R 2 unter jedem Satz von Modellen mit k Prädiktoren auswählen. Zum Beispiel könnten wir am Ende wählen:

  • Ein Modell ohne Prädiktoren
  • Ein Modell mit Prädiktor x 2
  • Ein Modell mit Prädiktoren x 1 , x 2
  • Ein Modell mit Prädiktoren x 1 , x 2 , x 3

Als nächstes führen wir eine Kreuzvalidierung durch und wählen das beste Modell aus, das den niedrigsten Vorhersagefehler (Cp, BIC, AIC oder angepasstes R 2) ergibt.

Zum Beispiel könnten wir am Ende das folgende Modell als das „beste“ Modell auswählen, weil es den niedrigsten kreuzvalidierten Vorhersagefehler erzeugt hat:

  • Ein Modell mit Prädiktoren x 1 , x 2

Kriterien für die Auswahl des „besten“ Modells

Der letzte Schritt der Auswahl der besten Teilmenge umfasst die Auswahl des Modells mit dem niedrigsten Vorhersagefehler, dem niedrigsten Cp, dem niedrigsten BIC, dem niedrigsten AIC oder dem höchsten angepassten R 2.

Hier sind die Formeln, die zur Berechnung jeder dieser Metriken verwendet werden:

Cp: (RSS + 2dσ̂) / n

AIC: (RSS + 2dσ̂ 2 ) / (nσ̂ 2 )

BIC: (RSS + log (n) dσ̂ 2 ) / n

Angepasstes R 2: 1 - ((RSS / (nd-1)) / (TSS / (n-1)))

wo:

  • d: Die Anzahl der Prädiktoren
  • n: Gesamtbeobachtungen
  • σ̂: Schätzung der Varianz des Fehlers, der mit jeder Antwortmessung in einem Regressionsmodell assoziiert ist
  • RSS: Residuenquadratsumme des Regressionsmodells
  • TSS: Gesamtsumme der Quadrate des Regressionsmodells

Vor- und Nachteile der besten Teilmengenauswahl

Die beste Auswahl von Teilmengen bietet die folgenden Vorteile:

  • Es ist ein einfacher Ansatz, um zu verstehen und zu interpretieren.
  • Es ermöglicht uns, das bestmögliche Modell zu identifizieren, da wir alle Kombinationen von Prädiktorvariablen berücksichtigen.

Diese Methode hat jedoch die folgenden Nachteile:

  • Es kann rechenintensiv sein. Für einen Satz von p Prädiktorvariablen gibt es 2 p mögliche Modelle. Bei 10 Prädiktorvariablen sind beispielsweise 2 10 = 1.000 mögliche Modelle zu berücksichtigen.
  • Da eine so große Anzahl von Modellen berücksichtigt wird, könnte möglicherweise ein Modell gefunden werden, das bei Trainingsdaten eine gute Leistung erbringt, bei zukünftigen Daten jedoch nicht. Dies kann zu einer Überanpassung führen.

Fazit

Die Auswahl der besten Teilmenge ist zwar einfach zu implementieren und zu verstehen, kann jedoch nicht durchführbar sein, wenn Sie mit einem Datensatz arbeiten, der eine große Anzahl von Prädiktoren enthält, und dies kann möglicherweise zu einer Überanpassung führen.

Eine Alternative zu dieser Methode ist die schrittweise Auswahl, die rechnerisch effizienter ist.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: