So führen Sie den Tukey-Test in R durch

Von Fabian
Kategorie: R
Tags: ANOVA
Lesezeit: 4 Minuten

Eine einfaktorielle ANOVA wird verwendet, um zu bestimmen, ob es einen statistisch signifikanten Unterschied zwischen den Mittelwerten von drei oder mehr unabhängigen Gruppen gibt oder nicht.

Wenn der Gesamt-p-Wert aus der ANOVA-Tabelle unter einem bestimmten Signifikanzniveau liegt, haben wir genügend Beweise, um zu sagen, dass sich mindestens einer der Mittelwerte der Gruppen von den anderen unterscheidet.

Dies sagt uns jedoch nicht, welche Gruppen sich voneinander unterscheiden. Es sagt uns einfach, dass nicht alle Gruppenmittelwerte gleich sind. Um genau herauszufinden, welche Gruppen sich voneinander unterscheiden, müssen wir einen Post-Hoc-Test durchführen.

Einer der am häufigsten verwendeten Post-hoc-Tests ist der Tukey-Test , mit dem wir paarweise Vergleiche zwischen den Mitteln jeder Gruppe anstellen und gleichzeitig die Family Wise Error Rate kontrollieren können.

In diesem Tutorial wird erklärt, wie der Tukey-Test in R durchgeführt wird.

Hinweis: Wenn eine der Gruppen in Ihrer Studie als Kontrollgruppe betrachtet wird, sollten Sie stattdessen den Dunnett-Test als Post-hoc-Test verwenden.

Beispiel: Tukey's Test in R

Schritt 1: Passen Sie das ANOVA-Modell an.

Der folgende Code zeigt, wie Sie einen synthetischen Datensatz mit drei Gruppen (A, B und C) erstellen und ein einfaktorielle ANOVA-Modell an die Daten anpassen, um festzustellen, ob die Mittelwerte für jede Gruppe gleich sind:

#Machen Sie dieses Beispiel reproduzierbar
set.seed (0)

#Daten erstellen
data <- data.frame(group = rep(c("A", "B", "C"), each = 30),
                   values = c(runif(30, 0, 3),
                                   runif(30, 0, 5),
                                   runif(30, 1, 7)))

#Die ersten sechs Zeilen anzeigen
head(data)

  group     values
1     A  2.6900916
2     A  0.7965260
3     A  1.1163717
4     A  1.7185601
5     A  2.7246234
6     A  0.6050458

#einfaktorielles ANOVA-Modell anpassen
model <- aov(values~group, data=data)

#Sehen Sie sich die Modellausgabe an
summary(model)

            Df Sum Sq Mean Sq F value   Pr(>F)    
group        2  98.93   49.46   30.83 7.55e-11 ***
Residuals   87 139.57    1.60                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Wir können sehen, dass der Gesamt-p-Wert aus der ANOVA-Tabelle 7,55e-11 beträgt. Da dies weniger als 0,05 ist, haben wir genügend Beweise, um zu sagen, dass die Mittelwerte über jede Gruppe nicht gleich sind. Daher können wir den Tukey-Test durchführen, um genau zu bestimmen, welche Gruppenmittelwerte unterschiedlich sind.

Schritt 2: Führen Sie den Tukey-Test durch.

Der folgende Code zeigt, wie die TukeyHSD()-Funktion zum Ausführen des Tukey-Tests verwendet wird:

#Tukey Test durchführen
TukeyHSD(model, conf.level=.95) 

  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = values ~ group, data = data)

$group
         diff       lwr      upr     p adj
B-A 0.9777414 0.1979466 1.757536 0.0100545
C-A 2.5454024 1.7656076 3.325197 0.0000000
C-B 1.5676610 0.7878662 2.347456 0.0000199

Der p-Wert gibt an, ob zwischen den einzelnen Programmen ein statistisch signifikanter Unterschied besteht oder nicht. Wir können der Ausgabe entnehmen, dass es einen statistisch signifikanten Unterschied zwischen dem mittleren Gewichtsverlust jedes Programms bei einem Signifikanzniveau von 0,05 gibt.

Speziell:

  • P-Wert für die Mittelwertdifferenz zwischen B und A: .0100545
  • P-Wert für die Mittelwertdifferenz zwischen C und A: .0000000
  • P-Wert für die Mittelwertdifferenz zwischen C und B: .0000199

Schritt 3: Visualisieren Sie die Ergebnisse.

Wir können die Plot-Funktion (TukeyHSD()) verwenden, um auch die Konfidenzintervalle zu visualisieren:

#Konfidenzintervalle plotten
plot(TukeyHSD(model, conf.level=.95), las = 2)

Hinweis: Das Argument las gibt an, dass die Markierungsbeschriftungen senkrecht (las = 2) zur Achse sein sollen.

Tukeys Test in R

Wir können sehen, dass keines der Konfidenzintervalle für den Mittelwert zwischen Gruppen den Wert Null enthält, was darauf hinweist, dass zwischen allen drei Gruppen ein statistisch signifikanter Unterschied im Mittelwertverlust besteht. Dies steht im Einklang mit der Tatsache, dass alle p-Werte aus unseren Hypothesentests unter 0,05 liegen.

Für dieses spezielle Beispiel können wir Folgendes schließen:

  • Die Mittelwerte der Gruppe C sind signifikant höher als die Mittelwerte der Gruppe A und B.
  • Die Mittelwerte der Gruppe B sind signifikant höher als die Mittelwerte der Gruppe A.

Zusätzliche Ressourcen

Eine Anleitung zur Verwendung von Post-Hoc-Tests mit ANOVA
So führen Sie eine einfaktorielle ANOVA in R durch
So führen Sie eine Zwei-Wege-ANOVA in R durch

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: