R: so ändern sie die Anzahl der Bins im Histogramm

Von Fabian
Kategorie: R
Lesezeit: 3 Minuten

Bei der Erstellung eines Histogramms in R wird eine Formel namens Sturges-Regel verwendet, um die optimale Anzahl der zu verwendenden Bins zu bestimmen.

Sie können jedoch die folgende Syntax verwenden, um diese Formel außer Kraft zu setzen und eine genaue Anzahl der im Histogramm zu verwendenden Bins anzugeben:

hist(data, breaks = seq(min(data), max(data), length.out = 7))

Beachten Sie, dass die Anzahl der im Histogramm verwendeten Bins um eins geringer ist als die im Argument length.out angegebene Anzahl.

Die folgenden Beispiele zeigen, wie man diese Syntax in der Praxis verwendet.

Beispiel 1: Erstellen eines einfachen Histogramms

Der folgende Code zeigt, wie man ein einfaches Histogramm in R erstellt, ohne die Anzahl der Bins anzugeben:

#Daten definieren
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#Erstellen eines Histogramms der Daten
hist(data, col = 'lightblue')

Bins

Anhand der Sturges-Regel beschloss R, 8 Gesamtbins im Histogramm zu verwenden.

Beispiel 2: Festlegen der Anzahl der im Histogramm zu verwendenden Bins

Der folgende Code zeigt, wie man ein Histogramm für denselben Datenvektor erstellt und genau 6 Bins verwendet:

#Daten definieren
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#Erstellen eines Histogramms mit 6 Bins
hist(data, col = 'lightblue', breaks = seq(min(data), max(data), length.out = 7))

Bins

Vorsichtsmaßnahmen bei der Auswahl einer bestimmten Anzahl von Behältern

Die Anzahl der in einem Histogramm verwendeten Bins hat einen großen Einfluss auf die Interpretation eines Datensatzes.

Wenn wir zu wenige Bins verwenden, kann das wahre, zugrunde liegende Muster in den Daten verborgen werden:

#Daten definieren
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#Erstellen eines Histogramms mit 3 Bins
hist(data, col = 'lightblue', breaks = seq(min(data), max(data), length.out = 4))

Bins

Umgekehrt, wenn wir zu viele Bins verwenden, visualisieren wir möglicherweise nur das Rauschen in einem Datensatz:

#Daten definieren
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#Erstellen eines Histogramms mit 15 Bins
hist(data, col = 'lightblue', breaks = seq(min(data), max(data), length.out = 16))

Bins

Im Allgemeinen neigt die in R verwendete Sturges-Regel dazu, Histogramme zu erzeugen, die eine optimale Anzahl von Bins haben.

Fühlen Sie sich frei, den hier bereitgestellten Code zu verwenden, um ein Histogramm mit einer genauen Anzahl von Bins zu erstellen, aber achten Sie darauf, dass Sie nicht zu viele oder zu wenige Bins wählen.

Zusätzliche Ressourcen

Die folgenden Tutorials erklären, wie man andere gängige Funktionen mit Histogrammen in R ausführt:

Wie man mehrere Histogramme in R darstellt
Erstellung eines Histogramms für zwei Variablen in R
Erstellung eines relativen Häufigkeitshistogramms in R

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: