Ein Maß für die zentrale Tendenz ist ein einzelner Wert, der den Mittelpunkt eines Datensatzes darstellt. Dieser Wert kann auch als „zentraler Ort“ eines Datensatzes bezeichnet werden.

In der Statistik gibt es drei gängige Maße für die zentrale Tendenz: Mittelwert, Median und Modus. Jede dieser Maßnahmen ermittelt mithilfe verschiedener Methoden den zentralen Speicherort eines Datensatzes. Abhängig von der Art der Daten, die Sie analysieren, ist eine dieser drei Maßnahmen möglicherweise besser als die beiden anderen.

In diesem Beitrag sehen wir uns an, wie Sie jedes der drei Maße der zentralen Tendenz berechnen und anhand Ihrer Daten ermitteln, welches Maß am besten zu verwenden ist.

Warum sind Maßnahmen der zentralen Tendenz sinnvoll?

Bevor wir uns mit der Berechnung von Mittelwert, Median und Modus befassen, ist es hilfreich, zunächst zu verstehen, warum diese Maßnahmen überhaupt hilfreich sind.

Stellen Sie sich das folgende Szenario vor:

Ein junges Paar versucht zu entscheiden, wo es sein erstes Haus in einer neuen Stadt kaufen soll, und das meiste, das es ausgeben kann, sind 150.000 Dollar. Einige Stadtteile haben teure Häuser, einige billige Häuser und andere Häuser mit mittleren Preisen. Sie möchten ihre Suche leicht auf bestimmte Stadtteile eingrenzen, die innerhalb ihres Budgets liegen.

Wenn sich das Paar nur die einzelnen Immobilienpreise in den einzelnen Stadtteilen ansieht, fällt es ihnen möglicherweise schwer, herauszufinden, welche Stadtteile am besten zu ihrem Budget passen, da sie möglicherweise Folgendes sehen:

Immobilienpreise in der Nachbarschaft A: $140k, $190k, $265k, $115k, $270k, $240k, $250k, $180k, $160k, $200k, $240k, $280k, …

Immobilienpreise in der Nachbarschaft B: $140k, $290k, $155k, $165k, $280k, $220k, $155k, $185k, $160k, $200k, $190k, $140k, $145k, …

Immobilienpreise in der Nachbarschaft C: $140k, $130k, $165k, $115k, $170k, $100k, $150k, $180k, $190k, $120k, $110k, $130k, $120k, …

Wenn sie jedoch den durchschnittlichen Immobilienpreis (z. B. ein Maß für die zentrale Tendenz) in jeder Nachbarschaft kennen, können sie ihre Suche viel schneller eingrenzen, da sie leichter erkennen können, in welcher Nachbarschaft die Immobilienpreise innerhalb ihres Budgets liegen:

Durchschnittlicher Preis für Wohnimmobilien in Nachbarschaft A: $220k

Durchschnittlicher Preis für Wohnimmobilien in Nachbarschaft B: $190k

Durchschnittlicher Preis für Wohnimmobilien in Nachbarschaft C: $140k

Wenn sie den durchschnittlichen Immobilienpreis in jeder Nachbarschaft kennen, können sie schnell erkennen, dass in Nachbarschaft C wahrscheinlich die meisten Häuser innerhalb ihres Budgets verfügbar sind.

Dies ist der Vorteil der Verwendung eines Maßes für die zentrale Tendenz: Es hilft Ihnen, den zentralen Wert eines Datensatzes zu verstehen, der tendenziell beschreibt, wo die Datenwerte normalerweise liegen. In diesem Beispiel hilft es dem jungen Paar, den typischen Eigenheimpreis in jeder Nachbarschaft zu verstehen.

Takeaway: Ein Maß für die zentrale Tendenz ist nützlich, da es uns einen einzigen Wert liefert, der das „Zentrum“ eines Datensatzes beschreibt. Dies hilft uns, einen Datensatz viel schneller zu verstehen, als einfach alle einzelnen Werte im Datensatz zu betrachten.

Mittelwert

Das am häufigsten verwendete Maß für die zentrale Tendenz ist der Mittelwert. Um den Mittelwert eines Datensatzes zu berechnen, addieren Sie einfach alle Einzelwerte und dividieren durch die Gesamtzahl der Werte.

Mittelwert = (Summe aller Werte) / (Gesamtzahl der Werte)

Angenommen, wir haben den folgenden Datensatz, der die Anzahl der Heimläufe zeigt, die von 10 Baseballspielern derselben Mannschaft in einer Saison getroffen wurden:

Spieler #1 #2 #3 #4 #5 #6 #7 #8 #9 #10
Home Runs 8 15 22 21 12 9 11 27 14 13

Die durchschnittliche Anzahl der pro Spieler getroffenen Homeruns kann wie folgt berechnet werden:

Mittelwert = (8 + 15 + 22 + 21 + 12 + 9 + 11 + 27 + 14 + 13) / 10 = 15,2 Home Runs.

Median

Der Median ist der Mittelwert in einem Datensatz. Sie können den Median ermitteln, indem Sie alle Einzelwerte in einem Datensatz vom kleinsten zum größten anordnen und den Mittelwert ermitteln. Wenn es eine ungerade Anzahl von Werten gibt, ist der Median der mittlere Wert. Bei einer geraden Anzahl von Werten ist der Median der Durchschnitt der beiden Mittelwerte.

Um beispielsweise die mittlere Anzahl der von den 10 Baseballspielern im vorherigen Beispiel getroffenen Home Runs zu ermitteln, können wir die Spieler in der Reihenfolge der geringsten bis zur größten Anzahl der getroffenen Home Runs anordnen:

Spieler #1 #6 #7 #5 #10 #9 #2 #4 #3 #8
Home Runs 8 9 11 12 13 14 15 21 22 27

Da wir eine gerade Anzahl von Werten haben, ist der Median einfach der Durchschnitt der beiden Mittelwerte: 13,5.

Überlegen Sie stattdessen, ob wir neun Spieler hatten:

Player #1 #6 #7 #5 #9 #2 #4 #3 #8
Home Runs 8 9 11 12 14 15 21 22 27

In diesem Fall ist der Median einfach der Mittelwert, da wir eine ungerade Anzahl von Werten haben: 14.

Modus

Der Modus ist der Wert, der in einem Dataset am häufigsten vorkommt. Ein Datensatz kann keinen Modus (wenn sich kein Wert wiederholt), einen Modus oder mehrere Modi haben.

Der folgende Datensatz hat beispielsweise keinen Modus:

Player #1 #2 #3 #4 #5 #6 #7 #8 #9 #10
Home Runs 8 9 11 12 13 14 15 21 22 27

Der folgende Datensatz hat einen Modus: 15. Dies ist der Wert, der am häufigsten auftritt.

Player #1 #2 #3 #4 #5 #6 #7 #8 #9 #10
Home Runs 8 9 11 12 13 15 15 21 22 27

Der folgende Datensatz verfügt über drei Modi: 8, 15, 19. Dies sind die Werte, die am häufigsten auftreten.

Player #1 #2 #3 #4 #5 #6 #7 #8 #9 #10
Home Runs 8 8 11 12 15 15 17 19 19 27

Der Modus kann ein besonders hilfreiches Maß für die zentrale Tendenz bei der Arbeit mit kategorialen Daten sein, da er uns sagt, welche Kategorie am häufigsten vorkommt. Betrachten Sie beispielsweise das folgende Balkendiagramm, das die Ergebnisse einer Umfrage zur Lieblingsfarbe der Personen zeigt:

Umfrageergebnisse Diagramm

Der Modus oder die am häufigsten auftretende Antwort war blau.

In Szenarien, in denen die Daten kategorisch sind (wie oben), ist es nicht einmal möglich, den Median oder den Mittelwert zu berechnen. Daher ist der Modus das einzige Maß für die zentrale Tendenz, die wir verwenden können.

Der Modus kann auch für numerische Daten verwendet werden, wie wir im obigen Beispiel bei Baseballspielern gesehen haben. Der Modus ist jedoch bei der Beantwortung der Frage „Was ist ein typischer Wert für diesen Datensatz?“ Weniger hilfreich.

Angenommen, wir möchten die typische Anzahl von Homeruns wissen, die von einem Baseballspieler in diesem Team ausgeführt werden:

Player #1 #2 #3 #4 #5 #6 #7 #8 #9 #10
Home Runs 8 8 11 12 15 15 17 19 19 27

Der Modus dieses Datasets ist 8, 15 und 19, da dies die am häufigsten vorkommenden Werte sind. Diese sind jedoch nicht besonders hilfreich, um die typische Anzahl von Heimläufen zu verstehen, die von einem Spieler im Team ausgeführt werden. Ein besseres Maß für die zentrale Tendenz wäre in diesem Fall der Median (15) oder der Mittelwert (ebenfalls 15).

Der Modus ist auch ein schlechtes Maß für die zentrale Tendenz, wenn es sich um eine Zahl handelt, die weit vom Rest der Werte entfernt ist. Der Modus des folgenden Datensatzes ist beispielsweise 30, dies entspricht jedoch nicht der „typischen“ Anzahl der pro Spieler im Team getroffenen Home Runs:

Player #1 #2 #3 #4 #5 #6 #7 #8 #9 #10
Home Runs 5 6 7 10 11 12 13 15 30 30

Wiederum würde der Mittelwert oder Median die zentrale Position dieses Datensatzes besser beschreiben.

Wann verwenden Sie den Mittelwert, den Median und den Modus?

Wir haben gesehen, dass der Mittelwert, der Median und der Modus den zentralen Ort oder den „typischen Wert“ eines Datensatzes auf sehr unterschiedliche Weise messen:

Mittelwert: Ermittelt den Durchschnittswert in einem Datensatz.

Median: Findet den Mittelwert in einem Datensatz.

Modus: Findet den am häufigsten vorkommenden Wert in einem Dataset.

Hier sind die Szenarien, in denen bestimmte Maßnahmen der zentralen Tendenz besser anzuwenden sind als andere:

Wann soll der Mittelwert verwendet werden?

Verwenden Sie den Mittelwert am besten, wenn die Verteilung der Daten ziemlich symmetrisch ist und keine Ausreißer vorhanden sind.

Angenommen, wir haben die folgende Verteilung, die die Gehälter von Personen in einer bestimmten Stadt anzeigt:

Gehaltsverteilung Diagramm

Da diese Verteilung ziemlich symmetrisch ist (d. H. Wenn Sie sie in der Mitte aufteilen, würde jede Hälfte ungefähr gleich aussehen) und es keine Ausreißer gibt (d. H. Keine extrem hohen Gehälter), kann der Mittelwert diesen Datensatz gut beschreiben.

Der Mittelwert liegt bei 63.000 US-Dollar, was ungefähr im Zentrum der Verteilung liegt:

Gehaltsverteilung Diagramm Mittelwert

Wann wird der Median verwendet?

Es ist am besten, den Median zu verwenden, wenn die Verteilung der Daten entweder verzerrt ist oder Ausreißer vorhanden sind.

Verzerrte Daten:

Wenn die Verteilung verzerrt ist, kann der Median die Position des Zentrums immer noch gut erfassen. Betrachten Sie beispielsweise die folgende Verteilung der Gehälter für Einzelpersonen in einer bestimmten Stadt:

Gehaltsverteilung Diagramm Mittelwert Median

Der Median erfasst das „typische“ Gehalt einer Person besser als der Mittelwert. Dies liegt daran, dass die großen Werte am hinteren Ende einer Verteilung dazu neigen, den Mittelwert von der Mitte weg und in Richtung des langen "Schwanzes" zu ziehen.

In diesem speziellen Beispiel sagt uns der Mittelwert, dass die typische Person in dieser Stadt ungefähr 47.000 USD pro Jahr verdient, während der Median sagt, dass die typische Person nur ungefähr 32.000 USD pro Jahr verdient, was viel repräsentativer für die typische Person ist.

Ausreißer:

Der Median erfasst auch besser den zentralen Ort einer Verteilung, wenn in den Daten Ausreißer vorhanden sind. Betrachten Sie beispielsweise die folgende Tabelle, die die Quadratmeterzahl von Häusern in einer bestimmten Straße zeigt:

Hausflächeverteilung Diagramm Mittelwert Median

Der Mittelwert wird stark von einigen extrem großen Häusern beeinflusst, der Median jedoch nicht. Somit kann der Median die „typischen“ Quadratmeter eines Hauses in dieser Straße besser erfassen als der Mittelwert.

Wann soll der Modus verwendet werden?

Verwenden Sie den Modus am besten, wenn Sie mit kategorialen Daten arbeiten und wissen möchten, welche Kategorie am häufigsten vorkommt. Hier einige Beispiele:

  • Sie führen eine Umfrage zu den Lieblingsfarben der Personen durch und möchten wissen, welche Farbe in den Antworten am häufigsten vorkommt.
  • Sie führen eine Umfrage über die Vorlieben von Personen unter drei Auswahlmöglichkeiten für ein Website-Design durch und möchten wissen, welches Design die Menschen am meisten bevorzugen.

Wie bereits erwähnt, ist es bei der Arbeit mit kategorialen Daten nicht einmal möglich, den Median oder Mittelwert zu berechnen, sodass der Modus das einzige Maß für die zentrale Tendenz ist.

Wenn Sie mit numerischen Daten wie Quadratmeterzahl von Häusern, Anzahl der pro Spieler getroffenen Hausläufe, Gehalt pro Person usw. arbeiten, ist es im Allgemeinen besser, den Median oder den Mittelwert zu verwenden, um den „typischen“ Wert in zu beschreiben der Datensatz.

Hinweis: Es ist wichtig zu beachten, dass ein Datensatz perfekt normal verteilt ist

Verwandte Artikel:
Wie wirken sich Ausreißer auf den Mittelwert aus?
Die Normalverteilung

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: