So finden Sie Konfidenzintervalle in R (mit Beispielen)

Von Fabian
Kategorie: R
Lesezeit: 5 Minuten

Ein Konfidenzintervall ist ein Wertebereich, der wahrscheinlich einen Populationsparameter mit einem bestimmten Konfidenzniveau enthält.

Sie wird nach folgender allgemeiner Formel berechnet:

Konfidenzintervall = (Punktschätzung) +/- (kritischer Wert) * (Standardfehler)

Diese Formel erstellt ein Intervall mit einer Untergrenze und einer Obergrenze, das wahrscheinlich einen Populationsparameter mit einem bestimmten Vertrauensniveau enthält:

Konfidenzintervall = [Untergrenze, Obergrenze]

In diesem Tutorial wird erklärt, wie die folgenden Konfidenzintervalle in R berechnet werden:

1. Konfidenzintervall für einen Mittelwert

2. Konfidenzintervall für einen Unterschied in den Mitteln

3. Konfidenzintervall für einen Anteil

4. Konfidenzintervall für einen Unterschied in den Anteilen

Lass uns reinspringen!

Beispiel 1: Konfidenzintervall für einen Mittelwert

Wir verwenden die folgende Formel, um ein Konfidenzintervall für einen Mittelwert zu berechnen:

Konfidenzintervall = x +/- t n-1, 1-α / 2 * (s / √n)

wo:

  • x : Stichprobenmittelwert
  • t: der t-kritische Wert
  • s: Standardabweichung der Probe
  • n: Stichprobengröße

Beispiel: Angenommen, wir sammeln eine zufällige Stichprobe von Schildkröten mit den folgenden Informationen:

  • Probengröße n = 25
  • Probenmittelgewicht x = 300
  • Standardabweichung der Probe s = 18,5

Der folgende Code zeigt, wie ein 95%-Konfidenzintervall für das durchschnittliche Populationsmittelgewicht von Schildkröten berechnet wird:

#Eingabestichprobengröße, Stichprobenmittelwert und Stichprobenstandardabweichung
n <- 25
xbar <- 300 
s <- 18.5

#Fehlerquote berechnen
margin <- qt(0.975,df=n-1)*s/sqrt(n)

#Berechnen Sie die unteren und oberen Grenzen des Konfidenzintervalls
low <- xbar - margin
low

[1] 292.3636

high <- xbar + margin
high

[1] 307.6364

Das 95%-Konfidenzintervall für das durchschnittliche Bevölkerungsgewicht der Schildkröten beträgt [292,36, 307,64].

Beispiel 2: Konfidenzintervall für einen Unterschied in den Mitteln

Wir verwenden die folgende Formel, um ein Konfidenzintervall für einen Unterschied im Populationsmittelwert zu berechnen:

Konfidenzintervall = ( x 1 - x 2 ) +/- t * √ ((s p 2 / n 1 ) + (s p 2 / n 2 ))

wo:

  • x 1 , x 2: Mittelwert von Probe 1, Mittelwert von Probe 2
  • t: der t-kritische Wert basierend auf dem Konfidenzniveau und (n 1 + n 2 -2) Freiheitsgraden
  • s p 2: gepoolte Varianz, berechnet als ((n 1 -1) s 1 2 + (n 2 -1) s 2 2 ) / (n 1 + n 2 -2)
  • t: der t-kritische Wert
  • n 1 , n 2: Größe von Probe 1, Größe von Probe 2

Beispiel: Angenommen, wir möchten den Unterschied im Durchschnittsgewicht zwischen zwei verschiedenen Schildkrötenarten schätzen, also gehen wir hinaus und sammeln eine Zufallsstichprobe von 15 Schildkröten aus jeder Population. Hier sind die zusammenfassenden Daten für jede Probe:

Probe 1:

  • x 1 = 310
  • s 1 = 18,5
  • n 1 = 15

Probe 2:

  • x 2 = 300
  • s 2 = 16,4
  • n 2 = 15

Der folgende Code zeigt, wie ein 95%-Konfidenzintervall für den tatsächlichen Unterschied im Bevölkerungsmittelwert berechnet wird:

#Eingabestichprobengröße, Stichprobenmittelwert und Stichprobenstandardabweichung
n1 <- 15
xbar1 <- 310 
s1 <- 18.5

n2 <- 15
xbar2 <- 300
s2 <- 16.4

#gepoolte Varianz berechnen
sp = ((n1-1)*s1^2 + (n2-1)*s2^2) / (n1+n2-2)

#Fehlerquote berechnen
margin <- qt(0.975,df=n1+n2-1)*sqrt(sp/n1 + sp/n2)

#Berechnen Sie die unteren und oberen Grenzen des Konfidenzintervalls
low <- (xbar1-xbar2) - margin
low

[1] -3.055445

high <- (xbar1-xbar2) + margin
high

[1] 23.05544

Das 95%-Konfidenzintervall für den tatsächlichen Unterschied im Populationsmittelwer beträgt [-3,06, 23,06].

Beispiel 3: Konfidenzintervall für einen Anteil

Wir verwenden die folgende Formel, um ein Konfidenzintervall für einen Anteilswert zu berechnen:

Konfidenzintervall = p +/- z * (√ p (1-p) / n )

wo:

  • p: Stichprobenanteil
  • z: der gewählte z-Wert
  • n: Stichprobengröße

Beispiel: Angenommen, wir möchten den Anteil der Einwohner eines Landkreises schätzen, die für ein bestimmtes Gesetz sind. Wir wählen eine Zufallsstichprobe von 100 Einwohnern aus und fragen sie nach ihrer Haltung zum Gesetz. Hier sind die Ergebnisse:

  • Probengröße n = 100
  • Anteil zugunsten des Gesetzes p = 0,56

Der folgende Code zeigt, wie ein 95%-Konfidenzintervall für den tatsächlichen Anteil der Einwohner des gesamten Landkreises berechnet wird, die für das Gesetz sind:

#Eingabe Stichprobengröße und Stichprobenanteil
n <- 100
p <- .56

#Fehlerquote berechnen
margin <- qnorm(0.975)*sqrt(p*(1-p)/n)

#Berechnen Sie die unteren und oberen Grenzen des Konfidenzintervalls
low <- p - margin
low

[1] 0.4627099

high <- p + margin
high

[1] 0.6572901

Das 95%-Konfidenzintervall für den tatsächlichen Anteil der Einwohner des gesamten Landkreises, die für das Gesetz sind, beträgt [.463, .657].

Beispiel 4: Konfidenzintervall für einen Unterschied in den Anteilen

Wir verwenden die folgende Formel, um ein Konfidenzintervall für einen Unterschied in den Anteilen zu berechnen:

Konfidenzintervall = (p 1 - p 2 ) +/- z * √ (p 1 (1 - p 1 ) / n 1 + p 2 (1 - p 2 ) / n 2 )

wo:

  • p 1 , p 2: Anteil von Probe 1, Anteil von Probe 2
  • z: Der z-kritische Wert basierend auf dem Konfidenzniveau
  • n 1 , n 2: Größe von Probe 1, Größe von Probe 2

Beispiel: Angenommen, wir möchten den Unterschied zwischen dem Anteil der Einwohner, die ein bestimmtes Gesetz in Landkreis A unterstützen, und dem Anteil derjenigen, die das Gesetz in Landkreis B unterstützen, schätzen. Hier sind die zusammenfassenden Daten für jede Stichprobe:

Probe 1:

  • n 1 = 100
  • p 1 = 0,62 (d.h. 62 von 100 Einwohnern unterstützen das Gesetz)

Probe 2:

  • n 2 = 100
  • p 2 = 0,46 (d.h. 46 von 100 Einwohnern unterstützen das Gesetz)

Der folgende Code zeigt, wie ein 95%-Konfidenzintervall für den tatsächlichen Unterschied im Anteil der Einwohner berechnet wird, die das Gesetz zwischen den Landkreisen unterstützen:

#Eingabe von Stichprobengrößen und Stichprobenanteilen
n1 <- 100
p1 <- .62

n2 <- 100
p2 <- .46

#Fehlerquote berechnen
margin <- qnorm(0.975)*sqrt(p1*(1-p1)/n1 + p2*(1-p2)/n2)

#Berechnen Sie die unteren und oberen Grenzen des Konfidenzintervalls
low <- (p1-p2) - margin
low

[1] 0.02364509


high <- (p1-p2) + margin
high

[1] 0.2963549

Das 95%-Konfidenzintervall für den tatsächlichen Unterschied im Anteil der Einwohner, die das Gesetz zwischen den Landkreisen unterstützen, beträgt [.024, .296].

Weitere R-Tutorials finden Sie hier.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: