Was wird als „starke“ Korrelation angesehen?

Von Fabian
Kategorie: Tutorials
Tags: Regression
Lesezeit: 5 Minuten

In der Statistik sind wir oft daran interessiert zu verstehen, wie zwei Variablen miteinander zusammenhängen. Zum Beispiel möchten wir vielleicht wissen:

  • Welche Beziehung besteht zwischen der Anzahl der Stunden, die ein Student studiert, und der Prüfungsnote, die er erhält?
  • Welche Beziehung besteht zwischen der Außentemperatur und der Anzahl der Eistüten, die ein Imbisswagen verkauft?
  • Welche Beziehung besteht zwischen den ausgegebenen Marketing-Dollars und dem Gesamteinkommen eines bestimmten Unternehmens?

In jedem dieser Szenarien versuchen wir, die Beziehung zwischen zwei verschiedenen Variablen zu verstehen.

In der Statistik ist eine der häufigsten Methoden zur Quantifizierung einer Beziehung zwischen zwei Variablen die Verwendung des Pearson-Korrelationskoeffizienten, der ein Maß für die lineare Assoziation zwischen zwei Variablen ist . Es hat einen Wert zwischen -1 und 1, wobei:

  • -1 zeigt eine vollkommen negative lineare Korrelation zwischen zwei Variablen an
  • 0 zeigt keine lineare Korrelation zwischen zwei Variablen an
  • 1 zeigt eine vollkommen positive lineare Korrelation zwischen zwei Variablen an

Diese Zahl wird oft als r bezeichnet und hilft uns zu verstehen, wie stark eine Beziehung zwischen zwei Variablen ist. Je weiter r von Null entfernt ist, desto stärker ist die Beziehung zwischen den beiden Variablen.

Es ist wichtig zu beachten, dass zwei Variablen eine starke positive Korrelation oder eine starke negative Korrelation aufweisen können.

Starke positive Korrelation: Wenn der Wert einer Variablen zunimmt, nimmt der Wert der anderen Variablen auf ähnliche Weise zu. Je mehr Stunden ein Student beispielsweise studiert, desto höher ist in der Regel seine Prüfungsnote. Die untersuchten Stunden und Prüfungsergebnisse weisen eine starke positive Korrelation auf.

Starke negative Korrelation: Wenn der Wert einer Variablen zunimmt, nimmt der Wert der anderen Variablen tendenziell ab. Zum Beispiel, je älter ein Huhn wird, desto weniger Eier produzieren sie. Hühneralter und Eierproduktion haben eine starke negative Korrelation.

Die folgende Tabelle zeigt die Faustregel für die Interpretation der Stärke der Beziehung zwischen zwei Variablen basierend auf dem Wert von r :

Absolutwert von *r*Stärke der Beziehung
r < 0.25Keine Beziehung
0.25 < r <0.5Schwache Beziehung
0.5 < r <0.75Moderate Beziehung
r > 0.75Starke Beziehung

Die Korrelation zwischen zwei Variablen wird als stark angesehen, wenn der Absolutwert von r größer als 0.75 ist. Die Definition einer „starken“ Korrelation kann jedoch von einem Feld zum nächsten variieren.

Medizinisch

Beispielsweise ist in medizinischen Bereichen die Definition einer „starken“ Beziehung häufig viel niedriger. Wenn die Beziehung zwischen der Einnahme eines bestimmten Arzneimittels und der Verringerung des Herzinfarkts r = 0.3 beträgt , kann dies in anderen Bereichen als „schwach positive“ Beziehung angesehen werden, aber in der Medizin ist es signifikant genug, dass es sich lohnt, das Arzneimittel einzunehmen, um die Einnahme zu verringern Chancen auf einen Herzinfarkt.

Humanressourcen

In einem anderen Bereich wie der Personalabteilung werden möglicherweise auch häufiger niedrigere Korrelationen verwendet. Beispielsweise wurde gezeigt, dass die Korrelation zwischen Hochschulnoten und Arbeitsleistung etwa r = 0.16 beträgt. Dies ist ziemlich niedrig, aber es ist groß genug, dass es ein Unternehmen zumindest während eines Interviewprozesses betrachten würde.

Technologie

In einem Bereich wie der Technologie muss die Korrelation zwischen Variablen in einigen Fällen möglicherweise viel höher sein, um als „stark“ eingestuft zu werden. Wenn ein Unternehmen beispielsweise ein selbstfahrendes Auto erstellt und die Korrelation zwischen den Abbiegeentscheidungen des Autos und der Wahrscheinlichkeit, in ein Wrack zu geraten, r = 0.95 beträgt, ist dies wahrscheinlich zu gering, als dass das Auto seit dem Ergebnis der Herstellung als sicher angesehen werden könnte Die falsche Entscheidung kann tödlich sein.

Korrelationen visualisieren

Unabhängig davon, in welchem Bereich Sie sich befinden, ist es hilfreich, ein Streudiagramm der beiden untersuchten Variablen zu erstellen, damit Sie die Beziehung zwischen ihnen zumindest visuell untersuchen können.

Angenommen, wir haben den folgenden Datensatz, der die Größe und das Gewicht von 12 Personen zeigt:

Datensatz

Es ist ein bisschen schwierig, die Beziehung zwischen diesen beiden Variablen zu verstehen, wenn man nur die Rohdaten betrachtet. Es ist jedoch viel einfacher, die Beziehung zu verstehen, wenn wir ein Streudiagramm mit Höhe auf der x-Achse und Gewicht auf der y-Achse erstellen:

Streudiagramm

Es besteht eindeutig eine positive Beziehung zwischen den beiden Variablen.

Das Erstellen eines Streudiagramms ist aus zwei weiteren Gründen eine gute Idee:

(1) Mit einem Streudiagramm können Sie Ausreißer identifizieren, die die Korrelation beeinflussen.

Ein extremer Ausreißer kann einen Pearson-Korrelationskoeffizienten dramatisch verändern. Betrachten Sie das folgende Beispiel, in dem die Variablen X und Y einen Pearson-Korrelationskoeffizienten von r = 0.00 haben.

Streudiagramm

Stellen Sie sich nun vor, wir haben einen Ausreißer im Datensatz:

Streudiagramm mit Ausreißer

Dieser Ausreißer bewirkt, dass die Korrelation r = 0.878 ist. Dieser einzelne Datenpunkt ändert die Korrelation vollständig und lässt den Eindruck entstehen, dass eine starke Beziehung zwischen den Variablen X und Y besteht, wenn dies wirklich nicht der Fall ist.

(2) Ein Streudiagramm kann Ihnen helfen, nichtlineare Beziehungen zwischen Variablen zu identifizieren.

Ein Pearson-Korrelationskoeffizient sagt lediglich aus, ob zwei Variablen linear zusammenhängen. Aber selbst wenn ein Pearson-Korrelationskoeffizient uns sagt, dass zwei Variablen nicht korreliert sind, könnten sie dennoch eine Art nichtlineare Beziehung haben. Dies ist ein weiterer Grund, warum es hilfreich ist, ein Streudiagramm zu erstellen.

Betrachten Sie beispielsweise das Streudiagramm unten zwischen den Variablen X und Y, in dem ihre Korrelation r = 0.00 ist.

Korrelation Diagramm

Die Variablen haben offensichtlich keine lineare Beziehung, aber sie haben eine nichtlineare Beziehung haben: Die y–Werte sind einfach die x^2 Werte. Ein Korrelationskoeffizient an sich konnte diese Beziehung nicht erfassen, ein Streudiagramm jedoch.

Fazit

Zusammenfassend:

  • Als Faustregel gilt, dass eine Korrelation von mehr als 0.75 als „starke“ Korrelation zwischen zwei Variablen angesehen wird.
  • Diese Faustregel kann jedoch von Feld zu Feld variieren. Beispielsweise könnte eine viel geringere Korrelation in einem medizinischen Bereich im Vergleich zu einem Technologiefeld als stark angesehen werden. Verwenden Sie am besten domänenspezifisches Fachwissen, wenn Sie entscheiden, was als stark angesehen wird.
  • Wenn Sie eine Korrelation verwenden, um die Beziehung zwischen zwei Variablen zu beschreiben, ist es hilfreich, auch ein Streudiagramm zu erstellen, damit Sie alle Ausreißer im Datensatz zusammen mit einer möglichen nichtlinearen Beziehung identifizieren können.
Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: