Beschreibende vs. Inferenzstatistik: Was ist der Unterschied?

Im Bereich der Statistik gibt es zwei Hauptzweige:

Beschreibende Statistik
Inferenzstatistik

Dieses Tutorial erklärt den Unterschied zwischen den beiden Zweigen und warum jeder in bestimmten Situationen nützlich ist.

Beschreibende Statistik

Kurz gesagt, beschreibende Statistiken zielen darauf ab , einen Teil der Rohdaten mithilfe von zusammenfassenden Statistiken, Grafiken und Tabellen zu beschreiben. Beschreibende Statistiken sind nützlich, da Sie damit eine Gruppe von Daten viel schneller und einfacher verstehen können, als wenn Sie nur auf Zeilen und Zeilen mit Rohdatenwerten starren.

Angenommen, wir haben eine Reihe von Rohdaten, die die Testergebnisse von 1.000 Schülern an einer bestimmten Schule anzeigen. Wir könnten an der durchschnittlichen Testnote zusammen mit der Verteilung der Testergebnisse interessiert sein.

Mithilfe deskriptiver Statistiken konnten wir die durchschnittliche Punktzahl ermitteln und ein Diagramm erstellen, mit dessen Hilfe wir die Verteilung der Punktzahlen visualisieren können. Dies ermöglicht es uns, die Testergebnisse der Schüler viel einfacher zu verstehen, als nur auf die Rohdaten zu starren.

Allgemeine Formen der beschreibenden Statistik

Es gibt drei gängige Formen der deskriptiven Statistik:

1. Zusammenfassende Statistik. Dies sind Statistiken, die die Daten unter Verwendung einer einzigen Zahl zusammenfassen. Es gibt zwei beliebte Arten von Zusammenfassungsstatistiken:

Maße der zentralen Tendenz : Diese Zahlen beschreiben, wo sich das Zentrum eines Datensatzes befindet. Beispiele sind der Mittelwert * und der Median*.
Dispersionsmaße : Diese Zahlen beschreiben, wie verteilt die Werte im Datensatz sind. Beispiele sind der Bereich, der Interquartilsabstand, die Standardabweichung und die Varianz.

2. Grafiken. Grafiken helfen uns, Daten zu visualisieren. Gängige Diagrammtypen, um Daten zu visualisieren sind Boxplots, Histogramme, Stengel-Blatt-Diagramme und Scatterplots.

3. Tabellen. Tabellen können uns helfen zu verstehen, wie Daten verteilt werden. Ein gängiger Tabellentyp ist eine Häufigkeitstabelle, aus der hervorgeht, wie viele Datenwerte in bestimmte Bereiche fallen.

Beispiel für die Verwendung deskriptiver Statistiken

Das folgende Beispiel zeigt, wie wir beschreibende Statistiken in der realen Welt verwenden können.

Angenommen, 1.000 Schüler einer bestimmten Schule machen alle den gleichen Test. Wir sind daran interessiert, die Verteilung der Testergebnisse zu verstehen, daher verwenden wir die folgenden beschreibenden Statistiken:

1. Zusammenfassende Statistik

Mittelwert: 82,13. Dies zeigt uns, dass die durchschnittliche Testnote unter allen 1.000 Schülern 82,13 beträgt.

Median: 84. Dies zeigt, dass die Hälfte aller Schüler mehr als 84 und die andere Hälfte weniger als 84 Punkte erzielte.

Max: 100. Min: 45. Dies gibt an, dass die maximale Punktzahl, die ein Schüler erhalten hat, 100 und die minimale Punktzahl 45 betrug. Der Bereich – der uns den Unterschied zwischen Max und Min angibt – beträgt 55.

2. Grafiken

Um die Verteilung der Testergebnisse zu visualisieren, können wir ein Histogramm erstellen – eine Art Diagramm, das rechteckige Balken zur Darstellung von Frequenzen verwendet.

Anhand dieses Histogramms können wir sehen, dass die Verteilung der Testergebnisse ungefähr glockenförmig ist. Die meisten Schüler erzielten zwischen 70 und 90 Punkte, während nur sehr wenige über 95 und weniger noch unter 50 Punkte erzielten.

3. Tabellen

Eine andere einfache Möglichkeit, die Verteilung der Punktzahlen zu verstehen, besteht darin, eine Häufigkeitstabelle zu erstellen. Die folgende Häufigkeitstabelle zeigt beispielsweise, wie viel Prozent der Schüler zwischen verschiedenen Bereichen punkten:

Wir können sehen, dass nur 4% der Gesamtschüler über 95 Punkte erzielten. Wir können auch sehen, dass (12% + 9% + 4% =) 25% aller Schüler 85 Punkte oder mehr erzielten.

Eine Häufigkeitstabelle ist besonders hilfreich, wenn wir wissen möchten, wie viel Prozent der Datenwerte über oder unter einen bestimmten Wert fallen. Angenommen, die Schule betrachtet eine „akzeptable“ Testnote als eine Punktzahl über 75. Wenn wir uns die Häufigkeitstabelle ansehen, können wir dies leicht erkennen (20% + 22% + 12% + 9% + 4% =). 67% der Schüler erhielten ein akzeptables Testergebnis.

Inferenzstatistik

Kurz gesagt, die Inferenzstatistik verwendet eine kleine Stichprobe von Daten, um Rückschlüsse auf die größere Population zu ziehen, aus der die Stichprobe stammt.

Zum Beispiel könnten wir daran interessiert sein, die politischen Präferenzen von Millionen von Menschen in einem Land zu verstehen. Es würde jedoch zu lange dauern und zu teuer sein, tatsächlich jeden Einzelnen im Land zu befragen. Daher würden wir stattdessen eine kleinere Umfrage unter beispielsweise 1.000 Amerikanern durchführen und die Ergebnisse der Umfrage verwenden, um Rückschlüsse auf die Gesamtbevölkerung zu ziehen.

Dies ist die ganze Voraussetzung für die Inferenzstatistik. Wir möchten einige Fragen zu einer Population beantworten. Daher erhalten wir Daten für eine kleine Stichprobe dieser Population und verwenden die Daten aus der Stichprobe, um Rückschlüsse auf die Population zu ziehen.

Die Bedeutung einer repräsentativen Stichprobe

Um sicher zu sein, dass wir eine Stichprobe verwenden können, um Rückschlüsse auf eine Population zu ziehen, müssen wir sicherstellen, dass wir eine repräsentative Stichprobe haben –d.h.eine Stichprobe, bei der die Merkmale der Personen in der Stichprobe eng mit den Merkmalen übereinstimmen der Gesamtbevölkerung.

Idealerweise möchten wir, dass unsere Stichprobe wie eine „Mini-Version“ unserer Bevölkerung ist. Wenn wir also Rückschlüsse auf eine Population von Studenten ziehen wollen, die zu 50% aus Mädchen und zu 50% aus Jungen besteht, wäre unsere Stichprobe nicht repräsentativ, wenn sie 90% Jungen und nur 10% Mädchen umfassen würde.

Wenn unsere Stichprobe nicht der Gesamtbevölkerung ähnlich ist, können wir die Ergebnisse der Stichprobe nicht mit Sicherheit auf die Gesamtbevölkerung übertragen.

So erhalten Sie eine repräsentative Stichprobe

Um die Wahrscheinlichkeit zu maximieren, dass Sie eine repräsentative Stichprobe erhalten, müssen Sie sich auf zwei Dinge konzentrieren:

1. Stellen Sie sicher, dass Sie eine Zufallsstichprobenmethode verwenden.

Es gibt verschiedene Methoden für zufällige Stichproben, mit denen Sie wahrscheinlich eine repräsentative Stichprobe erstellen können, darunter:

Eine einfache Zufallsstichprobe
Eine systematische Zufallsstichprobe
Eine Cluster-Zufallsstichprobe
Eine geschichtete Zufallsstichprobe

Zufallsstichprobenverfahren führen in der Regel zu repräsentativen Stichproben, da jedes Mitglied der Bevölkerung die gleiche Chance hat, in die Stichprobe aufgenommen zu werden.

2. Stellen Sie sicher, dass Ihre Stichprobe groß genug ist.

Neben der Verwendung einer geeigneten Stichprobenmethode ist es wichtig sicherzustellen, dass die Stichprobe groß genug ist, damit Sie über genügend Daten verfügen, um sie auf die größere Population zu übertragen.

Um zu bestimmen, wie groß Ihre Stichprobe sein sollte, müssen Sie die untersuchte Populationsgröße, das Konfidenzniveau, das Sie verwenden möchten, und die Fehlerquote berücksichtigen, die Sie für akzeptabel halten. Glücklicherweise können Sie Online-Rechner wie diesen verwenden, um diese Werte einzugeben und zu sehen, wie groß Ihre Stichprobe sein muss.

Allgemeine Formen der Inferenzstatistik

Es gibt drei gängige Formen der Inferenzstatistik:

1. Hypothesentests.

Oft sind wir daran interessiert, Fragen zu einer Bevölkerung zu beantworten, wie zum Beispiel:

Ist der Prozentsatz der Menschen in Ohio, die Kandidat A unterstützen, höher als 50%?
Ist die mittlere Höhe einer bestimmten Pflanze gleich 14 Zoll?
Gibt es einen Unterschied zwischen der mittleren Größe der Schüler an Schule A und der Schule B?

Um diese Fragen zu beantworten, können wir einen Hypothesentest durchführen, der es uns ermöglicht, Daten aus einer Stichprobe zu verwenden, um Schlussfolgerungen über Populationen zu ziehen.

2. Konfidenzintervalle.

Manchmal sind wir daran interessiert, einen Wert für eine Bevölkerung abzuschätzen. Zum Beispiel könnten wir an der mittleren Höhe einer bestimmten Pflanzenart in Australien interessiert sein.

Anstatt herumzugehen und jede einzelne Pflanze im Land zu messen, könnten wir eine kleine Pflanzenprobe sammeln und jede einzelne messen. Dann können wir die mittlere Höhe der Pflanzen in der Stichprobe verwenden, um die mittlere Höhe für die Population abzuschätzen.

Es ist jedoch unwahrscheinlich, dass unsere Stichprobe eine perfekte Schätzung für die Bevölkerung liefert. Glücklicherweise können wir diese Unsicherheit berücksichtigen, indem wir ein Konfidenzintervall erstellen, das einen Wertebereich bereitstellt, in den wir sicher sind, dass der wahre Populationsparameter fällt.

Zum Beispiel könnten wir ein 95%-Konfidenzintervall von [13,2, 14,8] erzeugen, was besagt, dass wir zu 95% sicher sind, dass die wahre mittlere Höhe dieser Pflanzenart zwischen 13,2 Zoll und 14,8 Zoll liegt.

3. Regression.

Manchmal sind wir daran interessiert, die Beziehung zwischen zwei Variablen in einer Population zu verstehen.

Angenommen, wir möchten wissen, ob die pro Woche verbrachten Stunden mit den Testergebnissen zusammenhängen. Um diese Frage zu beantworten, könnten wir eine Technik durchführen, die als Regressionsanalyse bekannt ist.

Wir können also die Anzahl der untersuchten Stunden zusammen mit den Testergebnissen für 100 Schüler beobachten und eine Regressionsanalyse durchführen, um festzustellen, ob eine signifikante Beziehung zwischen den beiden Variablen besteht. Wenn sich der p-Wert der Regression als signifikant herausstellt, können wir schließen, dass es eine signifikante Beziehung zwischen diesen beiden Variablen in der Gesamtbevölkerung der Studenten gibt.

Der Unterschied zwischen beschreibender und inferentieller Statistik

Zusammenfassend kann der Unterschied zwischen deskriptiver und inferentieller Statistik wie folgt beschrieben werden:

Beschreibende Statistiken verwenden zusammenfassende Statistiken, Grafiken und Tabellen, um einen Datensatz zu beschreiben. Dies ist hilfreich, um ein schnelles und einfaches Verständnis eines Datensatzes zu erlangen, ohne alle einzelnen Datenwerte zu überschütten.

Inferenzstatistiken verwenden Stichproben, um Rückschlüsse auf größere Populationen zu ziehen. Abhängig von der Frage, die Sie zu einer Population beantworten möchten, können Sie eine oder mehrere der folgenden Methoden verwenden: Hypothesentests, Konfidenzintervalle und Regressionsanalyse. Wenn Sie sich für eine dieser Methoden entscheiden, denken Sie daran, dass Ihre Stichprobe repräsentativ für Ihre Bevölkerung sein muss, da sonst die von Ihnen gezogenen Schlussfolgerungen unzuverlässig sind.