Hochdimensionale Daten bezieht sich auf einen Datensatz, bei dem die Anzahl der Merkmale p größer ist als die Anzahl der Beobachtungen N, oft geschrieben als p; N.

Zum Beispiel würde ein Datensatz mit p = 6 Merkmalen und nur N = 3 Beobachtungen als hochdimensionale Daten gelten, weil die Anzahl der Merkmale größer ist als die Anzahl der Beobachtungen.

Hochdimensionale Daten

Ein häufiger Fehler ist die Annahme, dass "hochdimensionale Daten" einfach einen Datensatz mit vielen Merkmalen bedeuten. Das ist jedoch falsch. Ein Datensatz kann 10.000 Merkmale haben, aber wenn er 100.000 Beobachtungen hat, ist er nicht hochdimensional.

Hinweis: Siehe Kapitel 18 in The Elements of Statistical Learning für einen tiefen Einblick in die Mathematik, die hochdimensionalen Daten zugrunde liegt.

Warum sind hochdimensionale Daten ein Problem?

Wenn die Anzahl der Merkmale in einem Datensatz die Anzahl der Beobachtungen übersteigt, werden wir niemals eine deterministische Antwort erhalten.

Mit anderen Worten wird es unmöglich, ein Modell zu finden, das die Beziehung zwischen den Prädiktorvariablen und der Antwortvariablen beschreiben kann, weil wir nicht genügend Beobachtungen haben, um das Modell zu trainieren.

Beispiele für hochdimensionale Daten

Die folgenden Beispiele illustrieren hochdimensionale Datensätze in verschiedenen Bereichen.

Beispiel 1: Daten aus dem Gesundheitswesen

Hochdimensionale Daten kommen häufig in Datensätzen des Gesundheitswesens vor, wo die Anzahl der Merkmale für eine bestimmte Person enorm sein kann (z. B. Blutdruck, Ruheherzfrequenz, Immunsystemstatus, Operationsgeschichte, Größe, Gewicht, bestehende Erkrankungen usw.).

In diesen Datensätzen ist es üblich, dass die Anzahl der Merkmale größer ist als die Anzahl der Beobachtungen.

Beispiel für hochdimensionale Daten

Beispiel 2: Finanzdaten

Hochdimensionale Daten sind auch in Finanzdatensätzen üblich, bei denen die Anzahl der Merkmale für eine bestimmte Aktie recht groß sein kann (d. h. KGV, Marktkapitalisierung, Handelsvolumen, Dividendenrate usw.)

Bei diesen Arten von Datensätzen ist die Anzahl der Merkmale in der Regel viel größer als die Anzahl der einzelnen Aktien.

Highdim

Beispiel 3: Genomik

Hochdimensionale Daten treten auch häufig im Bereich der Genomik auf, wo die Anzahl der Genmerkmale für ein bestimmtes Individuum enorm sein kann.

Highdim

Wie man mit hochdimensionalen Daten umgeht

Es gibt zwei gängige Möglichkeiten, mit hochdimensionalen Daten umzugehen:

1. Entscheiden Sie sich dafür, weniger Merkmale aufzunehmen.

Der offensichtlichste Weg, um den Umgang mit hochdimensionalen Daten zu vermeiden, besteht darin, einfach weniger Merkmale in den Datensatz aufzunehmen.

Es gibt mehrere Möglichkeiten, um zu entscheiden, welche Merkmale aus einem Datensatz entfernt werden sollen, darunter:

  • Merkmale mit vielen fehlenden Werten weglassen: Wenn eine bestimmte Spalte in einem Datensatz viele fehlende Werte aufweist, können Sie sie möglicherweise vollständig weglassen, ohne dass viele Informationen verloren gehen.
  • Merkmale mit geringer Varianz weglassen: Wenn eine bestimmte Spalte in einem Datensatz Werte aufweist, die sich nur wenig ändern, können Sie sie möglicherweise weglassen, da sie im Vergleich zu anderen Merkmalen wahrscheinlich nicht so viele nützliche Informationen über eine Antwortvariable liefert.
  • Lassen Sie Merkmale mit geringer Korrelation mit der Antwortvariablen weg: Wenn ein bestimmtes Merkmal nicht hoch mit der interessierenden Antwortvariable korreliert ist, können Sie es wahrscheinlich aus dem Datensatz streichen, da es wahrscheinlich kein nützliches Merkmal in einem Modell sein wird.

2. Verwenden Sie eine Regularisierungsmethode.

Eine weitere Möglichkeit, mit hochdimensionalen Daten umzugehen, ohne Merkmale aus dem Datensatz zu entfernen, ist die Verwendung einer Regularisierungstechnik wie:

Jede dieser Techniken kann verwendet werden, um effektiv mit hochdimensionalen Daten umzugehen.

Eine vollständige Liste aller Tutorials zum maschinellen Lernen in der Statologie finden Sie auf dieser Seite.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: