Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
- K: Die Anzahl der Modellparameter …
Die logistische Regression ist eine statistische Methode, mit der wir ein Regressionsmodell anpassen, wenn die Antwortvariable binär ist. Um zu beurteilen, wie gut ein logistisches Regressionsmodell zu einem Datensatz passt, können wir die folgenden zwei Metriken betrachten:
Eine einfache Möglichkeit, diese beiden Metriken zu visualisieren, besteht darin, eine ROC-Kurve zu erstellen. Hierbei handelt es sich um ein Diagramm, das die Sensitivität und Spezifität eines logistischen Regressionsmodells anzeigt.
In diesem Tutorial wird erläutert, wie Sie eine ROC-Kurve in SPSS erstellen und interpretieren.
Angenommen, wir haben den folgenden Datensatz, der zeigt, ob ein Basketballspieler in die NBA eingezogen wurde (0 = nein, 1 = ja), zusammen mit seinen durchschnittlichen Punkten pro Spiel im College:
Um eine ROC-Kurve für dieses Dataset zu erstellen, klicken Sie auf die Registerkarte Analysieren, dann auf Klassifizieren und dann auf ROC-Kurve:
In dem neuen Fenster, das sich öffnet, ziehen Sie die Variable Entwurf in das Feld State Variable markiert. Definieren Sie den Wert der Statusvariablen als 1. (Dies ist der Wert, der angibt, dass ein Spieler eingezogen wurde). Ziehen Sie die Variable Punkte in das Feld mit der Bezeichnung Variable testen.
Aktivieren Sie die Kontrollkästchen neben Mit diagonaler Referenzlinie und Koordinatenpunkten der ROC-Kurve. Klicken Sie dann auf OK.
So interpretieren Sie die Ausgabe:
Zusammenfassung der Fallbearbeitung:
Diese Tabelle zeigt die Gesamtzahl der positiven und negativen Fälle im Datensatz. In diesem Beispiel wurden 8 Spieler eingezogen (positives Ergebnis) und 6 Spieler wurden nicht eingezogen (negatives Ergebnis):
ROC-Kurve:
Die ROC-Kurve (Receiver Operating Characteristic) ist eine grafische Darstellung der Empfindlichkeitswerte gegen die 1-Spezifität, wenn sich der Wert des Grenzwerts von 0 auf 1 bewegt:
Ein Modell mit hoher Empfindlichkeit und hoher Spezifität weist eine ROC-Kurve auf, die sich an die obere linke Ecke des Diagramms schmiegt. Ein Modell mit geringer Empfindlichkeit und geringer Spezifität weist eine Kurve auf, die nahe an der 45-Grad-Diagonalen liegt.
Wir können sehen, dass die ROC-Kurve (die blaue Linie) in diesem Beispiel die obere linke Ecke des Diagramms umarmt, was darauf hinweist, dass das Modell anhand ihrer durchschnittlichen Punkte pro Spiel gut vorhersagen kann, ob Spieler eingezogen werden oder nicht.
Bereich unter der Kurve:
Der Bereich unter der Kurve gibt uns eine Vorstellung davon, wie gut das Modell zwischen positiven und negativen Ergebnissen unterscheiden kann. Die AUC kann zwischen 0 und 1 liegen. Je höher die AUC, desto besser kann das Modell die Ergebnisse korrekt klassifizieren.
Wir können sehen, dass die AUC für dieses spezielle logistische Regressionsmodell 0,948 beträgt, was extrem hoch ist. Dies zeigt an, dass das Modell gut vorhersagt, ob ein Spieler eingezogen wird oder nicht.
Koordinaten der Kurve:
Diese letzte Tabelle zeigt die Empfindlichkeit und 1 – Spezifität der ROC-Kurve für verschiedene Grenzpunkte.
Beispielsweise:
Wenn wir zulassen, dass der Grenzwert 8,50 beträgt, bedeutet dies, dass jeder Spieler, der weniger als 8,50 Punkte pro Spiel erzielt, nicht eingezogen wird, und jeder Spieler, der mehr als 8,50 Punkte pro Spiel erzielt, eingezogen wird.
Wenn wir dies als Grenzwert verwenden, beträgt unsere Sensitivität 100% (da jeder Spieler, der weniger als 8,50 Punkte pro Spiel erzielte, tatsächlich nicht eingezogen wurde) und unsere 1-Spezifität 66,7% (da 8 von 12 Spielern ein Tor erzielt haben) mehr als 8,50 Punkte pro Spiel wurden tatsächlich eingezogen).
In der obigen Tabelle können wir die Empfindlichkeit und 1-Spezifität für jeden potenziellen Grenzwert sehen.
Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
Die logistische Regression ist eine statistische Methode, die wir verwenden, um ein Regressionsmodell anzupassen, wenn die Antwortvariable binär ist.
Um zu beurteilen, wie gut ein logistisches Regressionsmodell zu einem Datensatz …