In der Statistik ist der Mittelwert eines Datensatzes der Durchschnittswert. Es ist nützlich zu wissen, weil es uns eine Vorstellung davon gibt, wo sich das „Zentrum“ des Datensatzes befindet. Es wird nach der einfachen Formel berechnet:

Mittelwert = (Summe der Beobachtungen) / (Anzahl der Beobachtungen)

Angenommen, wir haben den folgenden Datensatz:

[1, 4, 5, 6, 7]

Der Mittelwert des Datensatzes beträgt (1 + 4 + 5 + 6 + 7) / (5) = 4,6

Der Mittelwert ist zwar nützlich und leicht zu berechnen, hat jedoch einen Nachteil: Er kann von Ausreißern beeinflusst werden. Je kleiner der Datensatz ist, desto stärker kann ein Ausreißer den Mittelwert beeinflussen.

Betrachten Sie zur Veranschaulichung das folgende klassische Beispiel:

Zehn Männer sitzen in einer Bar. Das durchschnittliche Einkommen der zehn Männer beträgt 50.000 US-Dollar. Plötzlich geht ein Mann hinaus und Bill Gates kommt herein. Jetzt beträgt das durchschnittliche Einkommen der zehn Männer in der Bar 40 Millionen Dollar.

Dieses Beispiel zeigt, wie ein Ausreißer (Bill Gates) den Mittelwert drastisch beeinflussen kann.

Kleine und große Ausreißer

Ein Ausreißer kann den Mittelwert beeinflussen, indem er ungewöhnlich klein oder ungewöhnlich groß ist. Im vorherigen Beispiel hatte Bill Gates ein ungewöhnlich hohes Einkommen, was dazu führte, dass der Mittelwert irreführend war.

Ein ungewöhnlich kleiner Wert kann jedoch auch den Mittelwert beeinflussen. Betrachten Sie zur Veranschaulichung das folgende Beispiel:

Zehn Studenten legen eine Prüfung ab und erhalten folgende Punkte:

[0, 88, 90, 92, 94, 95, 95, 96, 97, 99]

Die durchschnittliche Punktzahl beträgt 84,6.

Wenn wir jedoch die Punktzahl „0“ aus dem Datensatz entfernen, beträgt die mittlere Punktzahl 94.

Die ungewöhnlich niedrige Punktzahl eines Schülers zieht den Mittelwert für den gesamten Datensatz nach unten.

Stichprobengröße & Ausreißer

Je kleiner die Stichprobengröße des Datensatzes ist, desto stärker kann ein Ausreißer den Mittelwert beeinflussen.

Angenommen, wir haben einen Datensatz mit 100 Prüfungsergebnissen, bei dem alle Schüler mindestens 90 oder mehr Punkte erzielt haben, mit Ausnahme eines Schülers, der eine Null erreicht hat:

[0, 90, 90, 92, 94, 95, 95, 96, 97, 99, 94, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99]

Der Mittelwert beträgt 93,18. Wenn wir die „0“ aus dem Datensatz entfernen würden, wäre der Mittelwert 94,12. Dies ist ein relativ kleiner Unterschied. Dies zeigt, dass selbst ein extremer Ausreißer nur dann einen geringen Effekt hat, wenn der Datensatz groß genug ist.

Umgang mit Ausreißern

Wenn Sie befürchten, dass ein Ausreißer in Ihrem Datensatz vorhanden ist, haben Sie einige Möglichkeiten:

  • Stellen Sie sicher, dass der Ausreißer nicht das Ergebnis eines Dateneingabefehlers ist. Manchmal gibt eine Person beim Aufzeichnen von Daten einfach den falschen Datenwert ein. Wenn ein Ausreißer vorhanden ist, überprüfen Sie zunächst, ob der Wert korrekt eingegeben wurde und kein Fehler vorliegt.
  • Weisen Sie dem Ausreißer einen neuen Wert zu. Wenn sich herausstellt, dass der Ausreißer auf einen Dateneingabefehler zurückzuführen ist, können Sie ihm einen neuen Wert zuweisen, z. B. den Mittelwert oder den Median des Datensatzes.
  • Entfernen Sie den Ausreißer. Wenn der Wert ein echter Ausreißer ist, können Sie ihn entfernen, wenn er erhebliche Auswirkungen auf Ihre Gesamtanalyse hat. Stellen Sie einfach sicher, dass Sie in Ihrem Abschlussbericht oder Ihrer Analyse erwähnen, dass Sie einen Ausreißer entfernt haben.

Verwenden Sie den Median

Eine andere Möglichkeit, das „Zentrum“ eines Datensatzes zu ermitteln, besteht darin, den Median zu verwenden, der ermittelt wird, indem alle Einzelwerte in einem Datensatz vom kleinsten zum größten angeordnet und der mittlere Wert ermittelt werden.

Aufgrund der Art und Weise, wie es berechnet wird, ist der Median weniger von Ausreißern betroffen und kann den zentralen Ort einer Verteilung besser erfassen, wenn Ausreißer vorhanden sind.

Betrachten Sie beispielsweise die folgende Tabelle, die die Quadratmeterzahl von Häusern in einer bestimmten Nachbarschaft zeigt:

Verteilung Diagramm Median, Mittelwert

Der Mittelwert wird stark von einigen extrem großen Häusern beeinflusst, der Median jedoch nicht. Somit kann der Median die „typischen“ Quadratmeter eines Hauses in dieser Nachbarschaft besser erfassen als der Mittelwert.

Weiterführende Literatur:

Maße der zentralen Tendenz: Definition & Beispiele

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: