In der Statistik sind wir häufig daran interessiert zu verstehen, wie ein Datensatz verteilt ist. Insbesondere sind vier Dinge hilfreich, die Sie über eine Distribution wissen sollten:

1. Form

  • Ist die Verteilung symmetrisch oder zur Seite geneigt?
  • Ist die Verteilung unimodal (ein Peak) oder bimodal (zwei Peaks)?

2. Ausreißer

  • Gibt es Ausreißer in der Verteilung?

3. Mitte

  • Was ist der Mittelwert, der Median und die Art der Verteilung?

4. Ausbreitung

  • W as ist der Bereich, der Interquartilsabstand, die Standardabweichung und die Varianz der Verteilung?

FAMA ist ein nützliches Akronym, mit dem wir uns an diese vier Dinge erinnern können. Es steht für „Form, Ausreißer, Mitte, Ausbreitung“.

Lassen Sie uns ein einfaches Beispiel für die Verwendung von FAMA zur Beschreibung einer Verteilung durchgehen.

Beispiel: Verwenden von FAMA zum Beschreiben einer Verteilung

Angenommen, wir haben den folgenden Datensatz, der die Höhe einer Probe von 20 verschiedenen Pflanzen zeigt.

Datensatz

So können wir FAMA verwenden, um diese Verteilung von Datenwerten zu beschreiben.

Form

Zunächst wollen wir die Form der Verteilung beschreiben.

Eine hilfreiche Möglichkeit, die Form der Verteilung zu visualisieren, besteht darin, ein Histogramm zu erstellen, in dem die Häufigkeit aller Werte im Datensatz angezeigt wird:

Histogramm Größenverteilung

Ist die Verteilung symmetrisch oder zur Seite geneigt? Aus dem Histogramm können wir erkennen, dass die Verteilung ungefähr symmetrisch ist. Das heißt, die Werte sind nicht auf die eine oder andere Seite verschoben.

Ist die Verteilung unimodal (ein Peak) oder bimodal (zwei Peaks)? Die Verteilung ist unimodal. Es hat einen Peak beim Wert „7“.

Ausreißer

Als Nächstes möchten wir feststellen, ob der Datensatz Ausreißer enthält. Aus dem Histogramm können wir die Verteilung visuell untersuchen und feststellen, dass 22 möglicherweise ein Ausreißer ist:

Beispiel für ein Histogramm mit SOCS in der Statistik

Ein üblicher Weg, einen Ausreißer formal zu definieren, ist ein Wert, der das 1,5-fache des Interquartilabstands über dem dritten Quartil oder unter dem ersten Quartil beträgt.

Mit einem Interquartilsabstandsrechner können wir die 20 Rohdatenwerte eingeben und feststellen, dass das dritte Quartil 9 ist, der Interquartisabstand 3 ist und daher jeder Wert über 9 + (1,5 * 3) = 13,5 per Definition ein Ausreißer ist.

Da 22 größer als 13,5 ist, können wir 22 als Ausreißer deklarieren.

Mitte

Als nächstes wollen wir beschreiben, wo sich das Zentrum der Verteilung befindet. Drei gängige Maße für die zentrale Tendenz, die wir verwenden können, sind der Mittelwert, der Median und der Modus.

Mittelwert: Dies ist der Durchschnittswert in der Verteilung. Wir finden dies, indem wir alle Einzelwerte addieren und dann durch die Gesamtzahl der Werte dividieren:

Mittelwert = (8 + 4 + 6 + 7 + 7 + 6 + 7 + 8 + 6 + 11 + 8 + 22 + 10 + 9 + 9 + 7 + 5 + 7 + 6 + 4) / 20 = 7.85

Median: Dies ist der „mittlere“ Wert in der Verteilung. Wir finden dies, indem wir alle Werte vom kleinsten zum größten anordnen und dann den mittleren Wert identifizieren. Dies stellt sich als 7 heraus.

4, 4, 5, 6, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 8, 9, 9, 10, 11, 22

Modus: Dies ist der Wert, der am häufigsten auftritt. Dies stellt sich als 7 heraus.

Ausbreitung

Als nächstes wollen wir beschreiben, wie verteilt die Werte in der Verteilung sind. Vier gängige Dispersionsmaße, die wir verwenden können, sind der Bereich, der Interquarilbereich, die Standardabweichung und die Varianz.

Bereich: Dies ist die Differenz zwischen dem größten und dem kleinsten Wert im Datensatz. Dies stellt sich als 22 – 4 = 18 heraus.

Interquartilsabstand: Hiermit wird die Breite der mittleren 50% der Datenwerte gemessen. Anhand der Eingabe der 20 Rohdatenwerte in einen Interquartilstabstandsrechner können wir erkennen, dass dies gleich 3 ist.

Standardabweichung: Dies ist ein Maß dafür, wie verteilt die Datenwerte im Durchschnitt sind. Aus der Eingabe der 20 Rohdatenwerte in den Varianz- und Standardabweichungsrechner können wir erkennen, dass die Standardabweichung gleich 3.69 ist.

Varianz: Dies ist einfach die quadratische Standardabweichung. Dies entspricht 3.69 2 = 13.63.

Fazit

Durch die Verwendung von FAMA als Leitfaden konnten wir die Verteilung der Pflanzenhöhen folgendermaßen beschreiben:

  • Die Verteilung war unimodal und symmetrisch, was bedeutet, dass sie nur einen Peak hatte und nicht zur einen oder anderen Seite geneigt war.
  • Die Verteilung hatte einen Ausreißer: 22.
  • Die Verteilung hatte einen Mittelwert von 7,85, einen Median von 7 und einen Modus von 7.
  • Die Verteilung hatte einen Bereich von 18, einen Interquartilsabstand von 3, eine Standardabweichung von 3,69 und eine Varianz von 13,63.

Beachten Sie, dass wir FAMA verwenden können, um jede Verteilung zu beschreiben. Dies ist eine hilfreiche Methode, um ein gutes Verständnis der Form einer Verteilung zu erlangen, wenn sie Ausreißer aufweist, wo sich das Zentrum ungefähr befindet und wie sich die Datenwerte verteilen sind.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: