Wie man Dezile in R berechnet (mit Beispielen)

Von Fabian
Kategorie: R
Lesezeit: 3 Minuten

In der Statistik sind Dezile Zahlen, die einen Datensatz in zehn gleich häufige Gruppen aufteilen.

Das erste Dezil ist der Punkt, an dem 10% aller Datenwerte darunter liegen. Das zweite Dezil ist der Punkt, an dem 20% aller Datenwerte darunter liegen usw.

Wir können die folgende Syntax verwenden, um die Dezile für einen Datensatz in R zu berechnen:

quantile(data, probs = seq(.1, .9, by = .1))

Das folgende Beispiel zeigt die praktische Anwendung dieser Funktion.

Beispiel: Dezile in R berechnen

Der folgende Code zeigt, wie Sie einen synthetischen Datensatz mit 20 Werten erstellen und dann die Werte für die Dezile des Datensatzes berechnen:

#Datensatz erstellen
data <- c(56, 58, 64, 67, 68, 73, 78, 83, 84, 88,
          89, 90, 91, 92, 93, 93, 94, 95, 97, 99)

#Dezile des Datensatzes berechnen
quantile(data, probs = seq(.1, .9, by = .1))

 10%  20%  30%  40%  50%  60%  70%  80%  90% 
63.4 67.8 76.5 83.6 88.5 90.4 92.3 93.2 95.2 

Die Dezile werden wie folgt interpretiert:

  • 10% aller Datenwerte liegen unter 63,4
  • 20% aller Datenwerte liegen unter 67,8.
  • 30% aller Datenwerte liegen unter 76,5.
  • 40% aller Datenwerte liegen unter 83,6.
  • 50% aller Datenwerte liegen unter 88,5.
  • 60% aller Datenwerte liegen unter 90,4.
  • 70% aller Datenwerte liegen unter 92,3.
  • 80% aller Datenwerte liegen unter 93,2.
  • 90% aller Datenwerte liegen unter 95,2.

Es ist erwähnenswert, dass der Wert beim 50. Perzentil dem Medianwert des Datasets entspricht.

Beispiel: Werte in Dezile in R . platzieren

Um jeden Datenwert in ein Dezil zu platzieren, können wir die Funktion ntile(x, ngroups) aus dem dplyr-Paket in R verwenden.

So verwenden Sie diese Funktion für das Dataset, das wir im vorherigen Beispiel erstellt haben:

library(dplyr)

#Datensatz erstellen
data <- data.frame(values=c(56, 58, 64, 67, 68, 73, 78, 83, 84, 88,
                            89, 90, 91, 92, 93, 93, 94, 95, 97, 99))

#platziere jeden Wert in ein Dezil
data$decile <- ntile(data, 10)

#Daten anzeigen
data

   values decile
1      56      1
2      58      1
3      64      2
4      67      2
5      68      3
6      73      3
7      78      4
8      83      4
9      84      5
10     88      5
11     89      6
12     90      6
13     91      7
14     92      7
15     93      8
16     93      8
17     94      9
18     95      9
19     97     10
20     99     10

Die Ausgabe wird wie folgt interpretiert:

  • Der Datenwert 56 liegt zwischen dem Perzentil 0% und 10%, fällt also in das erste Dezil.
  • Der Datenwert 58 liegt zwischen dem Perzentil 0% und 10%, fällt also in das erste Dezil.
  • Der Datenwert 64 liegt zwischen dem Perzentil 10% und 20 %, fällt also in das zweite Dezil.
  • Der Datenwert 67 liegt zwischen dem Perzentil 10% und 20 %, fällt also in das zweite Dezil.
  • Der Datenwert 68 liegt zwischen dem Perzentil 20% und 30 %, fällt also in das dritte Dezil.

Usw.

Zusätzliche Ressourcen

So berechnen Sie Perzentile in R
Wie man Quartile in R . berechnet
So erstellen Sie Häufigkeitstabellen in R

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: