Eine vollständige Anleitung zum Iris-Dataset in R

Von Fabian
Kategorie: R
Lesezeit: 3 Minuten

Der Iris-Datensatz ist ein in R integrierter Datensatz, der Messungen zu 4 verschiedenen Attributen (in Zentimetern) für 50 Blumen von 3 verschiedenen Arten enthält.

In diesem Tutorial wird erläutert, wie Sie ein Dataset in R untersuchen und zusammenfassen, wobei das Iris-Dataset als Beispiel dient.

Laden Sie den Iris-Datensatz

Da es sich beim Iris-Dataset um ein integriertes Dataset in R handelt, können wir es mit dem folgenden Befehl laden:

data(iris)

Wir können uns die ersten sechs Zeilen des Datensatzes mit der Funktion head() ansehen:

#erste sechs Zeilen des Iris-Datasets anzeigen
head(iris)

  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa

Fassen Sie den Iris-Datensatz zusammen

Wir können die Funktion summary() verwenden, um jede Variable im Datensatz schnell zusammenzufassen:

#Iris-Datensatz zusammenfassen
summary(iris)

  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50  

Für jede der numerischen Variablen können wir die folgenden Informationen sehen:

  • Min.: Der Mindestwert.
  • 1. Qu.: Der Wert des ersten Quartils (25. Perzentil).
  • Median: Der Medianwert.
  • Mean: Der Mittelwert.
  • 3. Qu.: Der Wert des dritten Quartils (75. Perzentil).
  • Max.: Der Höchstwert.

Für die einzige kategoriale Variable im Datensatz (Spezies) sehen wir eine Häufigkeitszählung für jeden Wert:

  • setosa: Diese Art kommt 50 mal vor.
  • versicolor: Diese Art kommt 50 mal vor.
  • virginica: Diese Art kommt 50-mal vor.

Wir können die Funktion dim() verwenden, um die Dimensionen des Datensatzes in Bezug auf die Anzahl der Zeilen und die Anzahl der Spalten zu erhalten:

#Zeilen und Spalten anzeigen
dim(iris)

[1] 150   5

Wir können sehen, dass der Datensatz 150 Zeilen und 5 Spalten hat.

Wir können auch die Funktion names() verwenden, um die Spaltennamen des Dataframes anzuzeigen:

#Spaltennamen anzeigen
names(iris)

[1] "Sepal.Length" "Sepal.Width"  "Petal.Length" "Petal.Width"  "Species"    

Visualisieren Sie den Iris-Datensatz

Wir können auch einige Diagramme erstellen, um die Werte im Datensatz zu visualisieren.

Zum Beispiel können wir die Funktion hist() verwenden, um ein Histogramm der Werte für eine bestimmte Variable zu erstellen:

#Erzeuge ein Histogramm von Werten für die Kelchblattlänge
hist(iris$Sepal.Length,
     col='steelblue',
     main='Histogram',
     xlab='Length',
     ylab='Frequency')

Iris

Wir können auch die Funktion plot() verwenden, um ein Streudiagramm einer beliebigen paarweisen Kombination von Variablen zu erstellen:

#Erzeuge Streudiagramm der Kelchblattbreite vs. Kelchblattlänge
plot(iris$Sepal.Width, iris$Sepal.Length,
     col='steelblue',
     main='Scatterplot',
     xlab='Sepal Width',
     ylab='Sepal Length',
     pch=19)

Iris

Wir können auch die Funktion boxplot() verwenden, um einen Boxplot nach Gruppe zu erstellen:

#Erzeuge Streudiagramm der Kelchblattbreite vs. Kelchblattlänge
boxplot(Sepal.Length~Species,
        data=iris,
        main='Sepal Length by Species',
        xlab='Species',
        ylab='Sepal Length',
        col='steelblue',
        border='black')

Iris

Die x-Achse zeigt die drei Arten und die y-Achse zeigt die Verteilung der Werte für die Kelchblattlänge für jede Art.

Diese Art der Darstellung lässt uns schnell erkennen, dass die Kelchblattlänge bei den Virginica-Arten am größten und bei den Setosa-Arten am kleinsten ist.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: