Was sind Konfidenzintervalle?

Von Fabian
Kategorie: Tutorials
Lesezeit: 5 Minuten

In der Statistik sind wir häufig daran interessiert, Bevölkerungsparameter zu messen – Zahlen, die einige Merkmale einer gesamten Bevölkerung beschreiben. Zwei der häufigsten Populationsparameter sind:

  1. Populationsmittelwert: Der Mittelwert einer Variablen in einer Population (z. B. die mittlere Körpergröße von Männern in den USA).
  2. Bevölkerungsanteil: Der Anteil einer Variablen in einer Bevölkerung (z. B. der Anteil der Einwohner eines Landkreises, die ein bestimmtes Gesetz unterstützen).

Obwohl wir daran interessiert sind, diese Parameter zu messen, ist es normalerweise zu kostspielig und zeitaufwändig, tatsächlich Daten über jede Person in einer Population zu sammeln, um die Populationsparameter zu berechnen. Stattdessen nehmen wir normalerweise eine Zufallsstichprobe aus der Gesamtpopulation und verwenden Daten aus der Stichprobe, um den Populationsparameter zu schätzen.

Angenommen, wir möchten das Durchschnittsgewicht einer bestimmten Schildkrötenart in Florida schätzen. Da es in Florida Tausende von Schildkröten gibt, wäre es äußerst zeitaufwändig und kostspielig, jede einzelne Schildkröte zu wiegen. Stattdessen könnten wir eine einfache Zufallsstichprobe von 50 Schildkröten nehmen und das mittlere Gewicht der Schildkröten in dieser Stichprobe verwenden, um den wahren Populationsmittelwert zu schätzen:

Stichprobe Bevölkerung Beispiel

Das Problem ist, dass das Durchschnittsgewicht der Schildkröten in der Stichprobe nicht genau mit dem Durchschnittsgewicht der Schildkröten in der gesamten Population übereinstimmt. Zum Beispiel könnten wir zufällig eine Probe voller Schildkröten mit geringem Gewicht oder vielleicht eine Probe voller schwerer Schildkröten auswählen.

Um diese Unsicherheit zu erfassen, können wir ein Konfidenzintervall erstellen. Ein Konfidenzintervall ist ein Wertebereich, der wahrscheinlich einen Populationsparameter mit einem bestimmten Konfidenzniveau enthält. Sie wird nach folgender allgemeiner Formel berechnet:

Konfidenzintervall = (Punktschätzung) +/- (kritischer Wert) * (Standardfehler)

Diese Formel erstellt ein Intervall mit einer Untergrenze und einer Obergrenze, das wahrscheinlich einen Populationsparameter mit einem bestimmten Vertrauensniveau enthält.

Konfidenzintervall = [Untergrenze, Obergrenze]

Die Formel zum Berechnen eines Konfidenzintervalls für einen Populationsmittelwert lautet beispielsweise wie folgt:

Konfidenzintervall = x +/- z*(s/√n)

wobei:

  • x: Stichprobenmittelwert
  • z: der gewählte z-Wert
  • s: Standardabweichung der Probe
  • n: Stichprobengröße

Der von Ihnen verwendete z-Wert hängt von dem von Ihnen gewählten Konfidenzniveau ab. Die folgende Tabelle zeigt den Z-Wert, der den gängigen Konfidenzstufen entspricht:

Konfidenzniveauz-Wert
0.901.645
0.951.96
0.992.58

Angenommen, wir sammeln eine zufällige Stichprobe von Schildkröten mit den folgenden Informationen:

  • Probengröße n = 25
  • Probenmittelgewicht x = 300
  • Standardabweichung der Probe s = 18,5

So berechnen Sie das 90%-Konfidenzintervall für das wahre Durchschnittsgewicht der Bevölkerung:

90% Konfidenzintervall: 300 +/- 1.645*(18.5/√25) = [293.91, 306.09]

Wir interpretieren dieses Konfidenzintervall wie folgt:

Es besteht eine 90% ige Wahrscheinlichkeit, dass das Konfidenzintervall von [293,91, 306,09] das wahre Populationsmittelgewicht der Schildkröten enthält.

Eine andere Möglichkeit, dasselbe zu sagen, besteht darin, dass nur eine Wahrscheinlichkeit von 10% besteht, dass der wahre Bevölkerungsdurchschnitt außerhalb des 90%-Konfidenzintervalls liegt. Das heißt, es besteht nur eine 10% ige Wahrscheinlichkeit, dass das durchschnittliche Durchschnittsgewicht der Schildkröten in der Bevölkerung mehr als 306,09 Pfund oder weniger als 293,91 Pfund beträgt.

Es ist nichts wert, dass es zwei Zahlen gibt, die die Größe eines Konfidenzintervalls beeinflussen können:

  1. Die Stichprobengröße: Je größer die Stichprobengröße ist, desto enger ist das Konfidenzintervall.
  2. Das Konfidenzniveau: Je größer das Konfidenzniveau, desto breiter das Konfidenzintervall.

Arten von Konfidenzintervallen

Es gibt viele Arten von Konfidenzintervallen. Hier sind die am häufigsten verwendeten:

Konfidenzintervall für einen Mittelwert

Ein Konfidenzintervall für einen Mittelwert ist ein Wertebereich, der wahrscheinlich einen Populationsmittelwert mit einem bestimmten Konfidenzniveau enthält. Die Formel zur Berechnung dieses Intervalls lautet:

Konfidenzintervall = x +/- z*(s/√n)

wobei:

  • x: Stichprobenmittelwert
  • z: der gewählte z-Wert
  • s: Standardabweichung der Probe
  • n: Stichprobengröße

Ressourcen:
So berechnen Sie ein Konfidenzintervall für einen Mittelwert

Konfidenzintervall für den Unterschied zwischen den Mittelwerten

Ein Konfidenzintervall (engl. confidence interval = C.I.) für eine Differenz zwischen Mittelwerten ist ein Wertebereich, der wahrscheinlich die wahre Differenz zwischen zwei Populationsmitteln mit einem bestimmten Konfidenzniveau enthält. Die Formel zur Berechnung dieses Intervalls lautet:

Konfidenzintervall = (x1–x2) +/- t*√((sp2/n1) + (sp2/n2))

wobei:

  • x1, x2: Mittelwert von Probe 1, Mittelwert von Probe 2
  • t: der t-kritische Wert basierend auf dem Konfidenzniveau und (n1+n2-2) Freiheitsgraden
  • sp2: gepoolte Varianz
  • n1, n2: Größe von Probe 1, Größe von Probe 2

wobei:

  • Die gepoolte Varianz wird berechnet als: sp2 = ((n1-1)s12 + (n2-1)s22) / (n1+n2-2)

Ressourcen:
So berechnen Sie ein Konfidenzintervall für den Unterschied zwischen Mittelwerten

Konfidenzintervall für einen Anteil

Ein Konfidenzintervall für einen Anteil ist ein Wertebereich, der wahrscheinlich einen Bevölkerungsanteil mit einem bestimmten Konfidenzniveau enthält. Die Formel zur Berechnung dieses Intervalls lautet:

Konfidenzintervall = p +/- z*(√p(1-p) / n)

wobei:

  • p: Stichprobenanteil
  • z: der gewählte z-Wert
  • n: Stichprobengröße

Ressourcen:
So berechnen Sie ein Konfidenzintervall für einen Anteil

Konfidenzintervall für den Unterschied zwischen den Anteilswerten

Ein Konfidenzintervall für den Unterschied zwischen den Anteilswerten ist ein Wertebereich, der wahrscheinlich die wahre Differenz zwischen zwei Populationsproportionen mit einem bestimmten Konfidenzniveau enthält. Die Formel zur Berechnung dieses Intervalls lautet:

Konfidenzintervall = (p1–p2) +/- z*√(p1(1-p1)/n1 + p2(1-p2)/n2)

wobei:

  • p1, p2: Anteil von Probe 1, Anteil von Probe 2
  • z: Der z-kritische Wert basierend auf dem Konfidenzniveau
  • n1, n2: Größe von Probe 1, Größe von Probe 2

Resources:
So berechnen Sie ein Konfidenzintervall für den Unterschied in den Anteilen

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: