Einführung in die lineare Diskriminanzanalyse

Von Fabian
Kategorie: Machine Learning
Lesezeit: 4 Minuten

Wenn wir eine Reihe von Prädiktorvariablen haben und eine Antwortvariable in eine von zwei Klassen einteilen möchten, verwenden wir normalerweise die logistische Regression.

Beispielsweise können wir im folgenden Szenario die logistische Regression verwenden: - Wir möchten die Kreditwürdigkeit und das Bankguthaben verwenden, um vorherzusagen, ob ein bestimmter Kunde einen Kredit nicht in Anspruch nimmt oder nicht. (Antwortvariable = "Standard" oder "Kein Standard") Wenn eine Antwortvariable jedoch mehr als zwei mögliche Klassen hat, bevorzugen wir normalerweise die Verwendung einer Methode, die als lineare Diskriminanzanalyse bekannt ist und häufig als LDA bezeichnet wird.

Beispielsweise können wir LDA im folgenden Szenario verwenden: - Wir möchten Punkte pro Spiel und Rebounds pro Spiel verwenden, um vorherzusagen, ob ein bestimmter High-School-Basketballspieler in eine von drei Schulen aufgenommen wird: Division 1, Division 2 oder Division 3. Obwohl sowohl LDA- als auch logistische Regressionsmodelle für die Klassifizierung verwendet werden, stellt sich heraus, dass LDA bei der Erstellung von Vorhersagen für mehrere Klassen weitaus stabiler als die logistische Regression ist und daher der bevorzugte Algorithmus ist, wenn die Antwortvariable mehr als annehmen kann zwei Klassen.

LDA bietet auch eine bessere Leistung, wenn die Stichprobengröße im Vergleich zur logistischen Regression klein ist. Dies macht es zu einer bevorzugten Methode, wenn Sie keine großen Stichproben erfassen können.

So erstellen Sie LDA-Modelle

LDA macht die folgenden Annahmen zu einem bestimmten Datensatz:

(1) Die Werte jeder Prädiktorvariablen sind normalverteilt. Das heißt, wenn wir ein Histogramm erstellen würden, um die Verteilung der Werte für einen bestimmten Prädiktor zu visualisieren, hätte es ungefähr eine „Glockenform“.

(2) Jede Prädiktorvariable hat die gleiche Varianz. Dies ist in realen Daten fast nie der Fall. Daher skalieren wir normalerweise jede Variable so, dass sie den gleichen Mittelwert und die gleiche Varianz aufweist, bevor wir tatsächlich ein LDA-Modell anpassen.

Sobald diese Annahmen erfüllt sind, schätzt LDA die folgenden Werte: - μ k: Der Mittelwert aller Trainingsbeobachtungen aus der k- ten Klasse.- σ 2: Der gewichtete Durchschnitt der Stichprobenvarianzen für jede der k Klassen.- π k: Der Anteil der Trainingsbeobachtungen, die zur k- ten Klasse gehören. LDA fügt diese Zahlen dann in die folgende Formel ein und weist jede Beobachtung X = x der Klasse zu, für die die Formel den größten Wert erzeugt:

D k (x) = x * (μ k / σ 2 ) - (μ k 2 /2σ 2 ) + log (π k )

Beachten Sie, dass LDA in seinem Namen linear ist, da der von der obigen Funktion erzeugte Wert aus einem Ergebnis linearer Funktionen von x stammt.

So bereiten Sie Daten für LDA vor

Stellen Sie sicher, dass Ihre Daten die folgenden Anforderungen erfüllen, bevor Sie ein LDA-Modell darauf anwenden:

1. Die Antwortvariable ist kategorisch. LDA-Modelle sind für die Verwendung bei Klassifizierungsproblemen konzipiert,d.h.wenn die Antwortvariable in Klassen oder Kategorien eingeteilt werden kann.

2. Die Prädiktorvariablen folgen einer Normalverteilung. Überprüfen Sie zunächst, ob jede Prädiktorvariable ungefähr normalverteilt ist. Ist dies nicht der Fall, können Sie zunächst die Daten transformieren, um die Verteilung zu normalisieren.

3. Jede Prädiktorvariable hat die gleiche Varianz. Wie bereits erwähnt, geht LDA davon aus, dass jede Prädiktorvariable dieselbe Varianz aufweist. Da dies in der Praxis selten der Fall ist, empfiehlt es sich, jede Variable im Datensatz so zu skalieren, dass sie einen Mittelwert von 0 und eine Standardabweichung von 1 aufweist.

4. Berücksichtigen Sie extreme Ausreißer. Überprüfen Sie den Datensatz unbedingt auf extreme Ausreißer, bevor Sie LDA anwenden. In der Regel können Sie visuell nach Ausreißern suchen, indem Sie einfach Boxplots oder Scatterplots verwenden.

Beispiele für die Verwendung der linearen Diskriminanzanalyse

LDA-Modelle werden im wirklichen Leben in einer Vielzahl von Bereichen eingesetzt. Einige Beispiele sind:

1. Marketing. Einzelhandelsunternehmen verwenden LDA häufig, um Käufer in eine von mehreren Kategorien einzuteilen. Beispielsweise können sie ein LDA-Modell erstellen, um anhand von Prädiktorvariablen wie Einkommen, jährlichen Gesamtausgaben und Haushaltsgröße vorherzusagen, ob ein bestimmter Käufer ein niedriger, mittlerer oder hoher Spender sein wird oder nicht.

2. Medizinisch. Krankenhäuser und medizinische Forschungsteams verwenden häufig LDA, um vorherzusagen, ob eine bestimmte Gruppe abnormaler Zellen wahrscheinlich zu einer leichten, mittelschweren oder schweren Krankheit führt.

3. Produktentwicklung. Unternehmen können LDA-Modelle erstellen, um vorherzusagen, ob ein bestimmter Verbraucher sein Produkt täglich, wöchentlich, monatlich oder jährlich verwenden wird, basierend auf einer Vielzahl von Prädiktorvariablen wie Geschlecht, Jahreseinkommen und Häufigkeit ähnlicher Produktverwendungen.

4. Ökologie. Forscher können LDA-Modelle erstellen, um vorherzusagen, ob ein bestimmtes Korallenriff eine allgemeine Gesundheit von gut, mittel, schlecht oder gefährdet aufweist, basierend auf einer Vielzahl von Prädiktorvariablen wie Größe, jährliche Kontamination und Alter.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: