So berechnen Sie Konfidenzintervalle in Python

Von Fabian
Kategorie: Python
Lesezeit: 3 Minuten

Ein Konfidenzintervall für einen Mittelwert ist ein Wertebereich, der wahrscheinlich einen Populationsmittelwert mit einem bestimmten Konfidenzniveau enthält.

Es wird berechnet als:

Konfidenzintervall = x +/- t * (s / √n)

wo:

  • x : Stichprobenmittelwert
  • t: t-Wert, der dem Konfidenzniveau entspricht
  • s: Standardabweichung der Probe
  • n: Stichprobengröße

In diesem Tutorial wird erklärt, wie Konfidenzintervalle in Python berechnet werden.

Konfidenzintervalle mit der t-Verteilung

Wenn wir mit einer kleinen Stichprobe arbeiten (n <30), können wir die Funktion t.interval() aus der Bibliothek scipy.stats verwenden, um ein Konfidenzintervall für einen Populationsmittelwert zu berechnen.

Das folgende Beispiel zeigt, wie ein Konfidenzintervall für die tatsächliche mittlere Populationshöhe (in Zoll) einer bestimmten Pflanzenart anhand einer Stichprobe von 15 Pflanzen berechnet wird:

import numpy as np
import scipy.stats as st

# Beispieldaten definieren
data = [12, 12, 13, 13, 15, 16, 17, 22, 23, 25, 26, 27, 28, 28, 29]

# 95%-Konfidenzintervall für das Durchschnittsgewicht der Bevölkerung erstellen
st.t.interval(alpha=0.95, df=len(data)-1, loc=np.mean(data), scale=st.sem(data)) 

(16.758, 24.042)

Das 95%-Konfidenzintervall für die wahre mittlere Bevölkerungsgröße beträgt (16.758, 24.042).

Sie werden feststellen, dass das Konfidenzintervall umso breiter ist, je größer das Konfidenzniveau ist. So berechnen Sie beispielsweise einen 99%-KI für genau dieselben Daten:

# Erstellen Sie ein Konfidenzintervall von 99% für dieselbe Stichprobe
st.t.interval(alpha=0.99, df=len(data)-1, loc=np.mean(data), scale=st.sem(data)) 

(15.348, 25.455)

Das 99%-Konfidenzintervall für die wahre mittlere Bevölkerungsgröße beträgt (15,348, 25,455). Beachten Sie, dass dieses Intervall breiter als das vorherige 95%-Konfidenzintervall ist.

Konfidenzintervalle unter Verwendung der Normalverteilung

Wenn wir mit größeren Stichproben arbeiten (n ≥ 30), können wir davon ausgehen, dass die Stichprobenverteilung des Stichprobenmittelwerts normal verteilt ist (dank des zentralen Grenzwertsatzes), und stattdessen die Funktion norm.interval() aus dem Scipy verwenden .stats Bibliothek.

Das folgende Beispiel zeigt, wie ein Konfidenzintervall für die tatsächliche mittlere Populationshöhe (in Zoll) einer bestimmten Pflanzenart anhand einer Stichprobe von 50 Pflanzen berechnet wird:

import numpy as np
import scipy.stats as st

# Beispieldaten definieren
np.random.seed(0)
data = np.random.randint(10, 30, 50)

# 95%-Konfidenzintervall für das Durchschnittsgewicht der Bevölkerung erstellen
st.norm.interval(alpha=0.95, loc=np.mean(data), scale=st.sem(data))

(17.40, 21.08)

Das 95%-Konfidenzintervall für die wahre mittlere Bevölkerungsgröße beträgt (17.40, 21.08).

Und ähnlich wie bei der t-Verteilung führen größere Konfidenzniveaus zu größeren Konfidenzintervallen. So berechnen Sie beispielsweise einen 99%-KI für genau dieselben Daten:

#Erstellen Sie ein Konfidenzintervall von 99% für dieselbe Stichprobe
st.norm.interval(alpha=0.99, loc=np.mean(data), scale=st.sem(data))

(16.82, 21.66)

Das 95%-Konfidenzintervall für die wahre mittlere Bevölkerungsgröße beträgt (17,82, 21,66).

So interpretieren Sie Konfidenzintervalle

Angenommen, unser 95%-Konfidenzintervall für die wahre mittlere Populationshöhe einer Pflanzenart beträgt:

95%-Konfidenzintervall = (16,758, 24,042)

Die Art und Weise, dieses Konfidenzintervall zu interpretieren, ist wie folgt:

Es besteht eine 95% ige Wahrscheinlichkeit, dass das Konfidenzintervall von [16.758, 24.042] die wahre mittlere Populationshöhe von Pflanzen enthält.

Eine andere Möglichkeit, dasselbe zu sagen, besteht darin, dass nur eine Wahrscheinlichkeit von 5% besteht, dass der wahre Bevölkerungsdurchschnitt außerhalb des 95%-Konfidenzintervalls liegt. Das heißt, es besteht nur eine 5% ige Wahrscheinlichkeit, dass die durchschnittliche Populationshöhe der Pflanzen weniger als 16,758 Zoll oder mehr als 24,042 Zoll beträgt.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: