Wenn die Beziehung zwischen einer Reihe von Prädiktorvariablen und einer Antwortvariablen sehr komplex ist, verwenden wir häufig nichtlineare Methoden, um die Beziehung zwischen ihnen zu modellieren.
Eine solche Methode sind …
Wenn die Beziehung zwischen einem Datensatz von Prädiktorvariablen und einer Antwortvariablen linear ist, können wir Methoden wie die multiple lineare Regression verwenden, um die Beziehung zwischen den Variablen zu modellieren.
Wenn die Beziehung jedoch komplexer ist, müssen wir uns häufig auf nichtlineare Methoden verlassen.
Eine solche Methode sind Klassifikations- und Regressionsbäume (häufig als CART abgekürzt), die eine Reihe von Prädiktorvariablen verwenden, um Entscheidungsbäume zu erstellen, die den Wert einer Antwortvariablen vorhersagen.
Der Nachteil von lassifikations- und Regressionsbaum-Modellen ist jedoch, dass sie tendenziell unter einer hohen Varianz leiden. Das heißt, wenn wir einen Datensatz in zwei Hälften teilen und einen Entscheidungsbaum auf beide Hälften anwenden, können die Ergebnisse sehr unterschiedlich sein.
Eine Methode, mit der wir die Varianz von CART-Modellen reduzieren können, ist das Bagging das manchmal als Bootstrap-Aggregation bezeichnet wird.
Wenn wir einen einzelnen Entscheidungsbaum erstellen, verwenden wir nur einen Trainingsdatensatz, um das Modell zu erstellen.
Beim Bagging wird jedoch die folgende Methode verwendet:
1. Nehmen Sie b Bootstrap-Proben aus dem Originaldatensatz.
3. Durchschnitt der Vorhersagen jedes Baums, um ein endgültiges Modell zu erhalten.
Um das Bagging auf Entscheidungsbäume anzuwenden, züchten wir B einzelne Bäume tief, ohne sie zu beschneiden. Dies führt zu einzelnen Bäumen mit hoher Varianz, aber geringer Verzerrung. Wenn wir dann die durchschnittlichen Vorhersagen von diesen Bäumen nehmen, können wir die Varianz reduzieren.
In der Praxis wird eine optimale Leistung normalerweise bei 50 bis 500 Bäumen erzielt, es ist jedoch möglich, Tausende von Bäumen anzupassen, um ein endgültiges Modell zu erstellen.
Denken Sie daran, dass das Anpassen von mehr Bäumen mehr Rechenleistung erfordert, was je nach Größe des Datensatzes ein Problem sein kann oder nicht.
Es stellt sich heraus, dass wir den Testfehler eines verpackten Modells berechnen können, ohne auf eine k-fache Kreuzvalidierung angewiesen zu sein.
Der Grund dafür ist, dass gezeigt werden kann, dass jedes Bootstrap-Beispiel etwa 2/3 der Beobachtungen aus dem Originaldatensatz enthält. Das verbleibende Drittel der Beobachtungen, die nicht für den Sackbaum verwendet wurden, wird als OOB-Beobachtung (Out-of-Bag) bezeichnet.
Wir können den Wert für die i-te Beobachtung im Originaldatensatz vorhersagen, indem wir die durchschnittliche Vorhersage von jedem der Bäume nehmen, in denen diese Beobachtung OOB war.
Mit diesem Ansatz können wir eine Vorhersage für alle n Beobachtungen im Originaldatensatz erstellen und so eine Fehlerrate berechnen, die eine gültige Schätzung des Testfehlers darstellt.
Der Vorteil dieses Ansatzes zur Schätzung des Testfehlers besteht darin, dass er viel schneller als die k-fache Kreuzvalidierung ist, insbesondere wenn der Datensatz groß ist.
Denken Sie daran, dass einer der Vorteile von Entscheidungsbäumen darin besteht, dass sie leicht zu interpretieren und zu visualisieren sind.
Wenn wir stattdessen Bagging verwenden, können wir einen einzelnen Baum nicht mehr interpretieren oder visualisieren, da das endgültige Bagged-Modell das Ergebnis der Mittelung vieler verschiedener Bäume ist. Wir gewinnen Vorhersagegenauigkeit auf Kosten der Interpretierbarkeit.
Wir können jedoch immer noch die Bedeutung jeder Prädiktorvariablen verstehen, indem wir die Gesamtverringerung des RSS (Residuenquadratsumme) aufgrund der Aufteilung über einen bestimmten Prädiktor berechnen, gemittelt über alle B Bäume. Je größer der Wert ist, desto wichtiger ist der Prädiktor.
In ähnlicher Weise können wir für Klassifikationsmodelle die Gesamtverringerung des Gini-Index aufgrund der Aufteilung über einen bestimmten Prädiktor berechnen, gemittelt über alle B Bäume. Je größer der Wert ist, desto wichtiger ist der Prädiktor.
Obwohl wir ein endgültiges Bagged-Modell nicht genau interpretieren können, können wir dennoch eine Vorstellung davon bekommen, wie wichtig jede Prädiktorvariable für die Vorhersage der Antwort ist.
Der Vorteil des Baggings besteht darin, dass es typischerweise eine Verbesserung der Testfehlerrate im Vergleich zu einem einzelnen Entscheidungsbaum bietet.
Der Nachteil ist, dass die Vorhersagen aus der Sammlung von Bagged-Trees stark korreliert werden können, wenn der Datensatz zufällig einen sehr starken Prädiktor enthält.
In diesem Fall verwenden die meisten oder alle Bagged-Trees diesen Prädiktor für die erste Aufteilung, was zu Bäumen führt, die einander ähnlich sind und stark korrelierte Vorhersagen aufweisen.
Eine Möglichkeit, dieses Problem zu umgehen, besteht darin, stattdessen zufällige Gesamtstrukturen zu verwenden, die eine ähnliche Methode wie das Bagging verwenden, jedoch dekorrelierte Bäume erzeugen können, was häufig zu niedrigeren Testfehlerraten führt.
Sie können einen einfachen Einstieg in Random Forests lesen hier.
Eine Einführung in Klassifikations- und Regressionsbäume
So führen Sie das Bagging in R durch (Schritt für Schritt)
Wenn die Beziehung zwischen einer Reihe von Prädiktorvariablen und einer Antwortvariablen sehr komplex ist, verwenden wir häufig nichtlineare Methoden, um die Beziehung zwischen ihnen zu modellieren.
Eine solche Methode sind …
Die meisten überwachten Algorithmen für maschinelles Lernen basieren auf der Verwendung eines einzelnen Vorhersagemodells wie lineare Regression, logistische Regression, Ridge-Regression usw.
Methoden wie Bagging und Random Forests erstellen jedoch viele …