Korrelationen in Stata: Pearson, Spearman und Kendall

Von Fabian
Kategorie: STATA
Tags: Korrelation
Lesezeit: 4 Minuten

In der Statistik bezieht sich die Korrelation auf die Stärke und Richtung einer Beziehung zwischen zwei Variablen. Der Wert eines Korrelationskoeffizienten kann im Bereich von -1 bis 1 liegen, wobei -1 eine perfekte negative Beziehung anzeigt, 0 keine Beziehung anzeigt und 1 eine perfekte positive Beziehung anzeigt.

Es gibt drei gängige Methoden zur Messung der Korrelation:

Pearson-Korrelation: Wird verwendet, um die Korrelation zwischen zwei kontinuierlichen Variablen zu messen. (z. B. Größe und Gewicht)

Spearman-Korrelation: Wird verwendet, um die Korrelation zwischen zwei eingestuften Variablen zu messen. (z. B. Rang der Punktzahl der Mathematikprüfung eines Schülers gegenüber dem Rang der Punktzahl der naturwissenschaftlichen Prüfung in einer Klasse)

Kendalls Korrelation: Wird verwendet, wenn Sie die Spearman-Korrelation verwenden möchten, die Stichprobengröße jedoch klein ist und es viele gebundene Ränge gibt.

In diesem Tutorial wird erklärt, wie Sie alle drei Arten von Korrelationen in Stata finden.

Laden der Daten

Für jedes der folgenden Beispiele verwenden wir einen Datensatz namens auto. Sie können diesen Datensatz laden, indem Sie Folgendes in das Befehlsfeld eingeben:

use http://www.stata-press.com/data/r13/auto

Wir können uns einen kurzen Überblick über den Datensatz verschaffen, indem wir Folgendes in das Befehlsfeld eingeben:

summarize

Beispielbefehl Zusammenfassen in Stata zusammen

Wir können sehen, dass der Datensatz insgesamt 12 Variablen enthält.

So finden Sie die Pearson-Korrelation in Stata

Mit dem Befehl pwcorr können wir den Pearson-Korrelationskoeffizienten zwischen den Variablen weight und length ermitteln:

pwcorr weight length

Pearson-Korrelation in Stata

Der Pearson-Korrelationskoeffizient zwischen diesen beiden Variablen beträgt 0,9460. Um festzustellen, ob dieser Korrelationskoeffizient signifikant ist, können wir den p-Wert mit dem Befehl sig ermitteln:

pwcorr weight length, sig

Pearson-Korrelationssignifikanz in Stata

Der p-Wert beträgt 0,000. Da dies weniger als 0,05 ist, ist die Korrelation zwischen diesen beiden Variablen statistisch signifikant.

Um den Pearson-Korrelationskoeffizienten für mehrere Variablen zu ermitteln, geben Sie einfach eine Liste von Variablen nach dem Befehl pwcorr ein:

pwcorr weight length displacement, sig

Pearson-Korrelation für mehrere Variablen in Stata

So interpretieren Sie die Ausgabe:

  • Pearson Korrelation zwischen Gewicht und Länge = 0,9460 | p-Wert = 0,000
  • Pearson Korrelation zwischen Gewicht und Hubraum = 0,8949 | p-Wert = 0,000
  • Pearson Korrelation zwischen Verschiebung und Länge = 0,8351 | p-Wert = 0,000

So finden Sie die Spearman-Korrelation in Stata

Mit dem Befehl spearman können wir den Spearman-Korrelationskoeffizienten zwischen den Variablen trunk und rep78 ermitteln:

spearman trunk rep78

Spearman-Korrelation in Stata

So interpretieren Sie die Ausgabe:

  • Anzahl der Beobachtungen: Dies ist die Anzahl der paarweisen Beobachtungen, die zur Berechnung des Spearman-Korrelationskoeffizienten verwendet werden. Da für die Variable rep78 einige Werte fehlten, verwendete Stata nur 69 (anstelle der vollständigen 74) paarweisen Beobachtungen.
  • Spearman-Rho: Dies ist der Spearman-Korrelationskoeffizient. In diesem Fall ist es -0,2235, was darauf hinweist, dass eine negative Korrelation zwischen den beiden Variablen besteht. Wenn einer zunimmt, neigt der andere dazu, abzunehmen.
  • Prob > | t |: Dies ist der p-Wert, der dem Hypothesentest zugeordnet ist. In diesem Fall beträgt der p-Wert 0,0649, was darauf hinweist, dass bei α = 0,05 keine statistisch signifikante Korrelation zwischen den beiden Variablen besteht.

Wir können den Spearman-Korrelationskoeffizienten für mehrere Variablen ermitteln, indem wir einfach weitere Variablen nach dem Spearman-Befehl eingeben. Wir können den Korrelationskoeffizienten und den entsprechenden p-Wert für jede paarweise Korrelation mit dem Befehl stats(rho p) ermitteln:

spearman trunk rep78 gear_ratio, stats(rho p)

Spearman-Korrelation für mehrere Variablen in Stata

So interpretieren Sie die Ausgabe:

  • Spearman-Korrelation zwischen Rumpf und rep78 = -0,2235 | p-Wert = 0,0649
  • Spearman Korrelation zwischen Rumpf und Gangverhältnis = -0,5187 | p-Wert = 0,0000
  • Spearman-Korrelation zwischen gear_ratio und rep78 = 0.4275 | p-Wert = 0,0002

So finden Sie Kendalls Korrelation in Stata

Mit dem Befehl ktau können wir den Kendall-Korrelationskoeffizienten zwischen den Variablen trunk und rep78 ermitteln:

ktau trunk rep78

Kendalls Korrelation in Stata

So interpretieren Sie die Ausgabe:

Anzahl der Beobachtungen: Dies ist die Anzahl der paarweisen Beobachtungen, die zur Berechnung des Kendall-Korrelationskoeffizienten verwendet werden. Da für die Variable rep78 einige Werte fehlten, verwendete Stata nur 69 (anstelle der vollständigen 74) paarweisen Beobachtungen.
Kendalls Tau-b: Dies ist Kendalls Korrelationskoeffizient zwischen den beiden Variablen. Wir verwenden diesen Wert normalerweise anstelle von tau-a, da tau-b Anpassungen für Bindungen vornimmt. In diesem Fall ist tau-b = -0,1752, was auf eine negative Korrelation zwischen den beiden Variablen hinweist.
Prob> | z |: Dies ist der p-Wert, der dem Hypothesentest zugeordnet ist. In diesem Fall beträgt der p-Wert 0,0662, was darauf hinweist, dass bei α = 0,05 keine statistisch signifikante Korrelation zwischen den beiden Variablen besteht.

Wir können den Kendall-Korrelationskoeffizienten für mehrere Variablen ermitteln, indem wir einfach weitere Variablen nach dem Befehl ktau eingeben. Wir können den Korrelationskoeffizienten und den entsprechenden p-Wert für jede paarweise Korrelation mit dem Befehl stats(taub p) ermitteln:

ktau trunk rep78 gear_ratio, stats(taub p)

Kendalls Tau für mehrere Variablen in Stata- Kendalls Korrelation zwischen Stamm und rep78 = -0,1752 | p-Wert = 0,0662 - Kendalls Korrelation zwischen Kofferraum und Getriebeverhältnis = -0,3753 | p-Wert = 0,0000 - Kendalls Korrelation zwischen gear_ratio und rep78 = 0.3206 | p-Wert = 0,0006

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: