Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
- K: Die Anzahl der Modellparameter …
In der Statistik sind wir oft daran interessiert zu verstehen, wie zwei Variablen miteinander zusammenhängen. Zum Beispiel möchten wir vielleicht wissen:
In jedem dieser Szenarien versuchen wir, die Beziehung zwischen zwei verschiedenen Variablen zu verstehen.
In der Statistik ist eine der häufigsten Methoden zur Quantifizierung einer Beziehung zwischen zwei Variablen die Verwendung des Pearson-Korrelationskoeffizienten, der ein Maß für die lineare Assoziation zwischen zwei Variablen ist . Es hat einen Wert zwischen -1 und 1, wobei:
Diese Zahl wird oft als r bezeichnet und hilft uns zu verstehen, wie stark eine Beziehung zwischen zwei Variablen ist. Je weiter r von Null entfernt ist, desto stärker ist die Beziehung zwischen den beiden Variablen.
Es ist wichtig zu beachten, dass zwei Variablen eine starke positive Korrelation oder eine starke negative Korrelation aufweisen können.
Starke positive Korrelation: Wenn der Wert einer Variablen zunimmt, nimmt der Wert der anderen Variablen auf ähnliche Weise zu. Je mehr Stunden ein Student beispielsweise studiert, desto höher ist in der Regel seine Prüfungsnote. Die untersuchten Stunden und Prüfungsergebnisse weisen eine starke positive Korrelation auf.
Starke negative Korrelation: Wenn der Wert einer Variablen zunimmt, nimmt der Wert der anderen Variablen tendenziell ab. Zum Beispiel, je älter ein Huhn wird, desto weniger Eier produzieren sie. Hühneralter und Eierproduktion haben eine starke negative Korrelation.
Die folgende Tabelle zeigt die Faustregel für die Interpretation der Stärke der Beziehung zwischen zwei Variablen basierend auf dem Wert von r :
Absolutwert von *r* | Stärke der Beziehung |
---|---|
r < 0.25 | Keine Beziehung |
0.25 < r <0.5 | Schwache Beziehung |
0.5 < r <0.75 | Moderate Beziehung |
r > 0.75 | Starke Beziehung |
Die Korrelation zwischen zwei Variablen wird als stark angesehen, wenn der Absolutwert von r größer als 0.75 ist. Die Definition einer „starken“ Korrelation kann jedoch von einem Feld zum nächsten variieren.
Beispielsweise ist in medizinischen Bereichen die Definition einer „starken“ Beziehung häufig viel niedriger. Wenn die Beziehung zwischen der Einnahme eines bestimmten Arzneimittels und der Verringerung des Herzinfarkts r = 0.3 beträgt , kann dies in anderen Bereichen als „schwach positive“ Beziehung angesehen werden, aber in der Medizin ist es signifikant genug, dass es sich lohnt, das Arzneimittel einzunehmen, um die Einnahme zu verringern Chancen auf einen Herzinfarkt.
In einem anderen Bereich wie der Personalabteilung werden möglicherweise auch häufiger niedrigere Korrelationen verwendet. Beispielsweise wurde gezeigt, dass die Korrelation zwischen Hochschulnoten und Arbeitsleistung etwa r = 0.16 beträgt. Dies ist ziemlich niedrig, aber es ist groß genug, dass es ein Unternehmen zumindest während eines Interviewprozesses betrachten würde.
In einem Bereich wie der Technologie muss die Korrelation zwischen Variablen in einigen Fällen möglicherweise viel höher sein, um als „stark“ eingestuft zu werden. Wenn ein Unternehmen beispielsweise ein selbstfahrendes Auto erstellt und die Korrelation zwischen den Abbiegeentscheidungen des Autos und der Wahrscheinlichkeit, in ein Wrack zu geraten, r = 0.95 beträgt, ist dies wahrscheinlich zu gering, als dass das Auto seit dem Ergebnis der Herstellung als sicher angesehen werden könnte Die falsche Entscheidung kann tödlich sein.
Unabhängig davon, in welchem Bereich Sie sich befinden, ist es hilfreich, ein Streudiagramm der beiden untersuchten Variablen zu erstellen, damit Sie die Beziehung zwischen ihnen zumindest visuell untersuchen können.
Angenommen, wir haben den folgenden Datensatz, der die Größe und das Gewicht von 12 Personen zeigt:
Es ist ein bisschen schwierig, die Beziehung zwischen diesen beiden Variablen zu verstehen, wenn man nur die Rohdaten betrachtet. Es ist jedoch viel einfacher, die Beziehung zu verstehen, wenn wir ein Streudiagramm mit Höhe auf der x-Achse und Gewicht auf der y-Achse erstellen:
Es besteht eindeutig eine positive Beziehung zwischen den beiden Variablen.
Das Erstellen eines Streudiagramms ist aus zwei weiteren Gründen eine gute Idee:
(1) Mit einem Streudiagramm können Sie Ausreißer identifizieren, die die Korrelation beeinflussen.
Ein extremer Ausreißer kann einen Pearson-Korrelationskoeffizienten dramatisch verändern. Betrachten Sie das folgende Beispiel, in dem die Variablen X und Y einen Pearson-Korrelationskoeffizienten von r = 0.00 haben.
Stellen Sie sich nun vor, wir haben einen Ausreißer im Datensatz:
Dieser Ausreißer bewirkt, dass die Korrelation r = 0.878 ist. Dieser einzelne Datenpunkt ändert die Korrelation vollständig und lässt den Eindruck entstehen, dass eine starke Beziehung zwischen den Variablen X und Y besteht, wenn dies wirklich nicht der Fall ist.
(2) Ein Streudiagramm kann Ihnen helfen, nichtlineare Beziehungen zwischen Variablen zu identifizieren.
Ein Pearson-Korrelationskoeffizient sagt lediglich aus, ob zwei Variablen linear zusammenhängen. Aber selbst wenn ein Pearson-Korrelationskoeffizient uns sagt, dass zwei Variablen nicht korreliert sind, könnten sie dennoch eine Art nichtlineare Beziehung haben. Dies ist ein weiterer Grund, warum es hilfreich ist, ein Streudiagramm zu erstellen.
Betrachten Sie beispielsweise das Streudiagramm unten zwischen den Variablen X und Y, in dem ihre Korrelation r = 0.00 ist.
Die Variablen haben offensichtlich keine lineare Beziehung, aber sie haben eine nichtlineare Beziehung haben: Die y–Werte sind einfach die x^2 Werte. Ein Korrelationskoeffizient an sich konnte diese Beziehung nicht erfassen, ein Streudiagramm jedoch.
Zusammenfassend:
Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
Die logistische Regression ist eine statistische Methode, die wir verwenden, um ein Regressionsmodell anzupassen, wenn die Antwortvariable binär ist.
Um zu beurteilen, wie gut ein logistisches Regressionsmodell zu einem Datensatz …