Wenn wir eine Reihe von Prädiktorvariablen haben und eine Antwortvariable in eine von zwei Klassen einteilen möchten, verwenden wir normalerweise die logistische Regression.

Wenn eine Antwortvariable jedoch mehr als zwei mögliche Klassen hat, verwenden wir normalerweise eine lineare Diskriminanzanalyse, die oft als LDA bezeichnet wird.

LDA geht davon aus, dass (1) Beobachtungen aus jeder Klasse normal verteilt sind und (2) Beobachtungen aus jeder Klasse dieselbe Kovarianzmatrix aufweisen. Unter Verwendung dieser Annahmen findet LDA dann die folgenden Werte: - μ k: Der Mittelwert aller Trainingsbeobachtungen aus der k-ten Klasse.- σ 2: Der gewichtete Durchschnitt der Stichprobenvarianzen für jede der k Klassen.- π k: Der Anteil der Trainingsbeobachtungen, die zur k-ten Klasse gehören. LDA fügt diese Zahlen dann in die folgende Formel ein und weist jede Beobachtung X = x der Klasse zu, für die die Formel den größten Wert erzeugt:

D k (x) = x * (μ k / σ 2 ) - (μ k 2 /2σ 2 ) + log (π k )

LDA hat einen linearen Namen, da der von der obigen Funktion erzeugte Wert aus einem Ergebnis linearer Funktionen von x stammt.

Eine Erweiterung der linearen Diskriminanzanalyse ist die quadratische Diskriminanzanalyse, die häufig als QDA bezeichnet wird.

Diese Methode ähnelt der LDA und setzt auch voraus, dass die Beobachtungen aus jeder Klasse normal verteilt sind, es wird jedoch nicht angenommen, dass jede Klasse dieselbe Kovarianzmatrix aufweist. Stattdessen geht QDA davon aus, dass jede Klasse ihre eigene Kovarianzmatrix hat.

Das heißt, es wird angenommen, dass eine Beobachtung aus der k-ten Klasse die Form X ~ N (μ k , Σ k ) hat.

Unter dieser Annahme findet QDA dann die folgenden Werte: - μ k: Der Mittelwert aller Trainingsbeobachtungen aus der k-ten Klasse.- Σ k: Die Kovarianzmatrix der k-ten Klasse.- π k: Der Anteil der Trainingsbeobachtungen, die zur k-ten Klasse gehören. QDA fügt diese Zahlen dann in die folgende Formel ein und weist jede Beobachtung X = x der Klasse zu, für die die Formel den größten Wert erzeugt:

D k (x) = -1 / 2 * (x-μ k ) T Σ k -1 (x-μ k ) - 1/2 * log | Σ k | + log (π k )

Beachten Sie, dass QDA einen quadratischen Namen hat, da der von der obigen Funktion erzeugte Wert aus einem Ergebnis quadratischer Funktionen von x stammt.

LDA vs. QDA: Wann man eins gegen das andere verwendet

Der Hauptunterschied zwischen LDA und QDA besteht darin, dass LDA davon ausgeht, dass jede Klasse eine Kovarianzmatrix aufweist, was sie zu einem viel weniger flexiblen Klassifikator als QDA macht.

Dies bedeutet von Natur aus, dass es eine geringe Varianz aufweist - das heißt, es wird bei verschiedenen Trainingsdatensätzen eine ähnliche Leistung erbringen. Der Nachteil ist, dass wenn die Annahme, dass die K-Klassen dieselbe Kovarianz haben, nicht wahr ist, LDA unter einer hohen Verzerrung leiden kann.

QDA wird in den folgenden Situationen im Allgemeinen gegenüber LDA bevorzugt:

(1) Das Trainingsset ist groß.

(2) Es ist unwahrscheinlich, dass die K-Klassen eine gemeinsame Kovarianzmatrix haben.

Wenn diese Bedingungen erfüllt sind, tendiert QDA dazu, eine bessere Leistung zu erzielen, da es flexibler ist und eine bessere Anpassung an die Daten bieten kann.

So bereiten Sie Daten für QDA vor

Stellen Sie sicher, dass Ihre Daten die folgenden Anforderungen erfüllen, bevor Sie ein QDA-Modell darauf anwenden:

1. Die Antwortvariable ist kategorisch. QDA-Modelle sind für die Verwendung bei Klassifizierungsproblemen konzipiert, d.h. wenn die Antwortvariable in Klassen oder Kategorien eingeteilt werden kann.

2. Die Beobachtungen in jeder Klasse folgen einer Normalverteilung. Überprüfen Sie zunächst, ob die Verteilung der Werte in jeder Klasse ungefähr normal verteilt ist. Ist dies nicht der Fall, können Sie zunächst die Daten transformieren, um die Verteilung zu normalisieren.

3. Berücksichtigen Sie extreme Ausreißer. Überprüfen Sie den Datensatz unbedingt auf extreme Ausreißer, bevor Sie LDA anwenden. In der Regel können Sie visuell nach Ausreißern suchen, indem Sie einfach Boxplots oder Scatterplots verwenden.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: