Wenn die Beziehung zwischen einem Datensatz von Prädiktorvariablen und einer Antwortvariablen linear ist, können wir Methoden wie die multiple lineare Regression verwenden, um die Beziehung zwischen den Variablen zu modellieren.

Wenn die Beziehung jedoch komplexer ist, müssen wir uns häufig auf nichtlineare Methoden verlassen.

Eine solche Methode sind Klassifikations- und Regressionsbäume (häufig als CART abgekürzt), die eine Reihe von Prädiktorvariablen verwenden, um Entscheidungsbäume zu erstellen, die den Wert einer Antwortvariablen vorhersagen.

Der Nachteil von lassifikations- und Regressionsbaum-Modellen ist jedoch, dass sie tendenziell unter einer hohen Varianz leiden. Das heißt, wenn wir einen Datensatz in zwei Hälften teilen und einen Entscheidungsbaum auf beide Hälften anwenden, können die Ergebnisse sehr unterschiedlich sein.

Eine Methode, mit der wir die Varianz von CART-Modellen reduzieren können, ist das Bagging das manchmal als Bootstrap-Aggregation bezeichnet wird.

Was ist Bagging?

Wenn wir einen einzelnen Entscheidungsbaum erstellen, verwenden wir nur einen Trainingsdatensatz, um das Modell zu erstellen.

Beim Bagging wird jedoch die folgende Methode verwendet:

1. Nehmen Sie b Bootstrap-Proben aus dem Originaldatensatz.

  • Denken Sie daran, dass ein Bootstrap-Beispiel ein Beispiel des Originaldatensatzes ist, in dem die Beobachtungen mit Ersatz genommen werden. 2. Erstellen Sie einen Entscheidungsbaum für jedes Bootstrap-Beispiel.

3. Durchschnitt der Vorhersagen jedes Baums, um ein endgültiges Modell zu erhalten.

  • Für Regressionsbäume nehmen wir den Durchschnitt der Vorhersage der B Bäume.
  • Für Klassifikationsbäume nehmen wir die am häufigsten vorkommende Vorhersage der B Bäume. Das Bagging kann mit jedem Algorithmus für maschinelles Lernen verwendet werden, ist jedoch besonders für Entscheidungsbäume nützlich, da sie von Natur aus eine hohe Varianz aufweisen und das Bagging die Varianz drastisch reduzieren kann, was zu einem geringeren Testfehler führt.

Um das Bagging auf Entscheidungsbäume anzuwenden, züchten wir B einzelne Bäume tief, ohne sie zu beschneiden. Dies führt zu einzelnen Bäumen mit hoher Varianz, aber geringer Verzerrung. Wenn wir dann die durchschnittlichen Vorhersagen von diesen Bäumen nehmen, können wir die Varianz reduzieren.

In der Praxis wird eine optimale Leistung normalerweise bei 50 bis 500 Bäumen erzielt, es ist jedoch möglich, Tausende von Bäumen anzupassen, um ein endgültiges Modell zu erstellen.

Denken Sie daran, dass das Anpassen von mehr Bäumen mehr Rechenleistung erfordert, was je nach Größe des Datensatzes ein Problem sein kann oder nicht.

Out-of-Bag-Fehlerschätzung

Es stellt sich heraus, dass wir den Testfehler eines verpackten Modells berechnen können, ohne auf eine k-fache Kreuzvalidierung angewiesen zu sein.

Der Grund dafür ist, dass gezeigt werden kann, dass jedes Bootstrap-Beispiel etwa 2/3 der Beobachtungen aus dem Originaldatensatz enthält. Das verbleibende Drittel der Beobachtungen, die nicht für den Sackbaum verwendet wurden, wird als OOB-Beobachtung (Out-of-Bag) bezeichnet.

Wir können den Wert für die i-te Beobachtung im Originaldatensatz vorhersagen, indem wir die durchschnittliche Vorhersage von jedem der Bäume nehmen, in denen diese Beobachtung OOB war.

Mit diesem Ansatz können wir eine Vorhersage für alle n Beobachtungen im Originaldatensatz erstellen und so eine Fehlerrate berechnen, die eine gültige Schätzung des Testfehlers darstellt.

Der Vorteil dieses Ansatzes zur Schätzung des Testfehlers besteht darin, dass er viel schneller als die k-fache Kreuzvalidierung ist, insbesondere wenn der Datensatz groß ist.

Die Bedeutung von Prädiktoren verstehen

Denken Sie daran, dass einer der Vorteile von Entscheidungsbäumen darin besteht, dass sie leicht zu interpretieren und zu visualisieren sind.

Wenn wir stattdessen Bagging verwenden, können wir einen einzelnen Baum nicht mehr interpretieren oder visualisieren, da das endgültige Bagged-Modell das Ergebnis der Mittelung vieler verschiedener Bäume ist. Wir gewinnen Vorhersagegenauigkeit auf Kosten der Interpretierbarkeit.

Wir können jedoch immer noch die Bedeutung jeder Prädiktorvariablen verstehen, indem wir die Gesamtverringerung des RSS (Residuenquadratsumme) aufgrund der Aufteilung über einen bestimmten Prädiktor berechnen, gemittelt über alle B Bäume. Je größer der Wert ist, desto wichtiger ist der Prädiktor.

In ähnlicher Weise können wir für Klassifikationsmodelle die Gesamtverringerung des Gini-Index aufgrund der Aufteilung über einen bestimmten Prädiktor berechnen, gemittelt über alle B Bäume. Je größer der Wert ist, desto wichtiger ist der Prädiktor.

Obwohl wir ein endgültiges Bagged-Modell nicht genau interpretieren können, können wir dennoch eine Vorstellung davon bekommen, wie wichtig jede Prädiktorvariable für die Vorhersage der Antwort ist.

Über das Bagging hinausgehend

Der Vorteil des Baggings besteht darin, dass es typischerweise eine Verbesserung der Testfehlerrate im Vergleich zu einem einzelnen Entscheidungsbaum bietet.

Der Nachteil ist, dass die Vorhersagen aus der Sammlung von Bagged-Trees stark korreliert werden können, wenn der Datensatz zufällig einen sehr starken Prädiktor enthält.

In diesem Fall verwenden die meisten oder alle Bagged-Trees diesen Prädiktor für die erste Aufteilung, was zu Bäumen führt, die einander ähnlich sind und stark korrelierte Vorhersagen aufweisen.

Eine Möglichkeit, dieses Problem zu umgehen, besteht darin, stattdessen zufällige Gesamtstrukturen zu verwenden, die eine ähnliche Methode wie das Bagging verwenden, jedoch dekorrelierte Bäume erzeugen können, was häufig zu niedrigeren Testfehlerraten führt.

Sie können einen einfachen Einstieg in Random Forests lesen hier.

Zusätzliche Ressourcen

Eine Einführung in Klassifikations- und Regressionsbäume
So führen Sie das Bagging in R durch (Schritt für Schritt)

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: