Erstellen und Interpretieren einer ROC-Kurve in SPSS

Von Fabian
Kategorie: SPSS
Tags: Regression
Lesezeit: 3 Minuten

Die logistische Regression ist eine statistische Methode, mit der wir ein Regressionsmodell anpassen, wenn die Antwortvariable binär ist. Um zu beurteilen, wie gut ein logistisches Regressionsmodell zu einem Datensatz passt, können wir die folgenden zwei Metriken betrachten:

  • Sensitivität: Die Wahrscheinlichkeit, dass das Modell ein positives Ergebnis für eine Beobachtung vorhersagt, wenn das Ergebnis tatsächlich positiv ist.
  • Spezifität: Die Wahrscheinlichkeit, dass das Modell ein negatives Ergebnis für eine Beobachtung vorhersagt, wenn das Ergebnis tatsächlich negativ ist.

Eine einfache Möglichkeit, diese beiden Metriken zu visualisieren, besteht darin, eine ROC-Kurve zu erstellen. Hierbei handelt es sich um ein Diagramm, das die Sensitivität und Spezifität eines logistischen Regressionsmodells anzeigt.

In diesem Tutorial wird erläutert, wie Sie eine ROC-Kurve in SPSS erstellen und interpretieren.

Beispiel: ROC-Kurve in SPSS

Angenommen, wir haben den folgenden Datensatz, der zeigt, ob ein Basketballspieler in die NBA eingezogen wurde (0 = nein, 1 = ja), zusammen mit seinen durchschnittlichen Punkten pro Spiel im College:

Datensatz

Um eine ROC-Kurve für dieses Dataset zu erstellen, klicken Sie auf die Registerkarte Analysieren, dann auf Klassifizieren und dann auf ROC-Kurve:

Einstellungen ROC-Kurve in SPSS

In dem neuen Fenster, das sich öffnet, ziehen Sie die Variable Entwurf in das Feld State Variable markiert. Definieren Sie den Wert der Statusvariablen als 1. (Dies ist der Wert, der angibt, dass ein Spieler eingezogen wurde). Ziehen Sie die Variable Punkte in das Feld mit der Bezeichnung Variable testen.

Aktivieren Sie die Kontrollkästchen neben Mit diagonaler Referenzlinie und Koordinatenpunkten der ROC-Kurve. Klicken Sie dann auf OK.

Einstellungen ROC-Kurve in SPSS 2

So interpretieren Sie die Ausgabe:

Zusammenfassung der Fallbearbeitung:

Diese Tabelle zeigt die Gesamtzahl der positiven und negativen Fälle im Datensatz. In diesem Beispiel wurden 8 Spieler eingezogen (positives Ergebnis) und 6 Spieler wurden nicht eingezogen (negatives Ergebnis):

Interpretation der ROC-Kurve in SPSS

ROC-Kurve:

Die ROC-Kurve (Receiver Operating Characteristic) ist eine grafische Darstellung der Empfindlichkeitswerte gegen die 1-Spezifität, wenn sich der Wert des Grenzwerts von 0 auf 1 bewegt:

ROC-Kurve in SPSS

Ein Modell mit hoher Empfindlichkeit und hoher Spezifität weist eine ROC-Kurve auf, die sich an die obere linke Ecke des Diagramms schmiegt. Ein Modell mit geringer Empfindlichkeit und geringer Spezifität weist eine Kurve auf, die nahe an der 45-Grad-Diagonalen liegt.

Wir können sehen, dass die ROC-Kurve (die blaue Linie) in diesem Beispiel die obere linke Ecke des Diagramms umarmt, was darauf hinweist, dass das Modell anhand ihrer durchschnittlichen Punkte pro Spiel gut vorhersagen kann, ob Spieler eingezogen werden oder nicht.

Bereich unter der Kurve:

Der Bereich unter der Kurve gibt uns eine Vorstellung davon, wie gut das Modell zwischen positiven und negativen Ergebnissen unterscheiden kann. Die AUC kann zwischen 0 und 1 liegen. Je höher die AUC, desto besser kann das Modell die Ergebnisse korrekt klassifizieren.

AUC auf ROC-Kurve in SPSS

Wir können sehen, dass die AUC für dieses spezielle logistische Regressionsmodell 0,948 beträgt, was extrem hoch ist. Dies zeigt an, dass das Modell gut vorhersagt, ob ein Spieler eingezogen wird oder nicht.

Koordinaten der Kurve:

Diese letzte Tabelle zeigt die Empfindlichkeit und 1 – Spezifität der ROC-Kurve für verschiedene Grenzpunkte.

Interpretieren der Koordinaten der Kurve in der logistischen Regression in SPSS

Beispielsweise:

Wenn wir zulassen, dass der Grenzwert 8,50 beträgt, bedeutet dies, dass jeder Spieler, der weniger als 8,50 Punkte pro Spiel erzielt, nicht eingezogen wird, und jeder Spieler, der mehr als 8,50 Punkte pro Spiel erzielt, eingezogen wird.

Wenn wir dies als Grenzwert verwenden, beträgt unsere Sensitivität 100% (da jeder Spieler, der weniger als 8,50 Punkte pro Spiel erzielte, tatsächlich nicht eingezogen wurde) und unsere 1-Spezifität 66,7% (da 8 von 12 Spielern ein Tor erzielt haben) mehr als 8,50 Punkte pro Spiel wurden tatsächlich eingezogen).

In der obigen Tabelle können wir die Empfindlichkeit und 1-Spezifität für jeden potenziellen Grenzwert sehen.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: