Was ist ein guter R-Quadrat-Wert?

Von Fabian
Kategorie: Tutorials
Tags: Regression
Lesezeit: 4 Minuten

Das R-Quadrat ist ein Maß dafür, wie gut ein lineares Regressionsmodell zu einem Datensatz passt. R-Quadrat wird auch als Bestimmtheitsmaß bezeichnet und ist der Anteil der Varianz in der Antwortvariablen, der durch die Prädiktorvariable erklärt werden kann.

Der Wert für das R-Quadrat kann im Bereich von 0 bis 1 liegen. Ein Wert von 0 zeigt an, dass die Antwortvariable überhaupt nicht durch die Prädiktorvariable erklärt werden kann. Ein Wert von 1 gibt an, dass die Antwortvariable durch die Prädiktorvariable fehlerfrei perfekt erklärt werden kann.

In der Praxis werden Sie wahrscheinlich nie einen Wert von 0 oder 1 für das R-Quadrat sehen. Stattdessen werden Sie wahrscheinlich auf einen Wert zwischen 0 und 1 stoßen.

Angenommen, Sie haben einen Datensatz, der die Bevölkerungsgröße und die Anzahl der Blumenläden in 30 verschiedenen Städten enthält. Sie passen ein einfaches lineares Regressionsmodell an den Datensatz an, wobei Sie die Populationsgröße als Prädiktorvariable und die Blumenläden als Antwortvariable verwenden. In der Ausgabe der Regressionsergebnisse sehen Sie, dass R2 = 0,2 ist. Dies weist darauf hin, dass 20% der Varianz in der Anzahl der Blumenläden durch die Bevölkerungsgröße erklärt werden können.

Dies führt zu einer wichtigen Frage: Ist dies ein „guter“ Wert für das R-Quadrat?

  1. Möchten Sie die Beziehung zwischen dem / den Prädiktor (en) und der Antwortvariablen erklären?

ODER

  1. Möchten Sie die Antwortvariable vorhersagen?

Je nach Ziel die Antwort auf „Was ist ein guter Wert für R-Quadrat?“ wird anders sein.

Streudiagramm mit zwei Regressionsgeraden

Erläutern der Beziehung zwischen dem / den Prädiktor(en) und der Antwortvariablen

Wenn Ihr Hauptziel für Ihr Regressionsmodell darin besteht, die Beziehung zwischen dem / den Prädiktor (en) und der Antwortvariablen zu erklären, ist das R-Quadrat größtenteils irrelevant.

Angenommen, im obigen Regressionsbeispiel sehen Sie, dass der Koeffizient für die Größe der Prädiktorpopulation 0,005 beträgt und statistisch signifikant ist. Dies bedeutet, dass eine Zunahme der Bevölkerungszahl um eins mit einer durchschnittlichen Zunahme der Anzahl der Blumenläden in einer bestimmten Stadt um 0,005 verbunden ist. Die Bevölkerungsgröße ist auch ein statistisch signifikanter Prädiktor für die Anzahl der Blumenläden in einer Stadt.

Ob der R-Quadrat-Wert für dieses Regressionsmodell 0,2 oder 0,9 beträgt, ändert nichts an dieser Interpretation. Da Sie lediglich an der Beziehung zwischen der Bevölkerungsgröße und der Anzahl der Blumenläden interessiert sind, müssen Sie sich nicht zu sehr mit dem R-Quadrat-Wert des Modells befassen.

Vorhersage der Antwortvariablen

Wenn Ihr Hauptziel darin besteht, den Wert der Antwortvariablen mithilfe der Prädiktorvariablen genau vorherzusagen, ist das R-Quadrat wichtig.

Je größer der R-Quadrat-Wert ist, desto genauer können die Prädiktorvariablen im Allgemeinen den Wert der Antwortvariablen vorhersagen.

Wie hoch ein R-Quadrat-Wert sein muss, hängt davon ab, wie genau Sie sein müssen. Beispielsweise muss in wissenschaftlichen Studien das R-Quadrat möglicherweise über 0,95 liegen, damit ein Regressionsmodell als zuverlässig angesehen werden kann. In anderen Bereichen kann ein R-Quadrat von nur 0,3 ausreichend sein, wenn der Datensatz extrem variabel ist.

Um herauszufinden, was als „guter“ R-Quadrat-Wert angesehen wird, müssen Sie untersuchen, welche R-Quadrat-Werte in Ihrem Fachgebiet allgemein akzeptiert werden. Wenn Sie eine Regressionsanalyse für einen Kunden oder ein Unternehmen durchführen, können Sie ihn möglicherweise fragen, was als akzeptabler R-Quadrat-Wert angesehen wird.

Vorhersageintervalle

Ein Vorhersageintervall gibt einen Bereich an, in den eine neue Beobachtung fallen könnte, basierend auf den Werten der Prädiktorvariablen. Engere Vorhersageintervalle zeigen an, dass die Prädiktorvariablen die Antwortvariable genauer vorhersagen können.

Oft kann ein Vorhersageintervall nützlicher sein als ein R-Quadrat-Wert, da es Ihnen einen genauen Wertebereich gibt, in den eine neue Beobachtung fallen könnte. Dies ist besonders nützlich, wenn Ihr primäres Ziel der Regression darin besteht, neue Werte der Antwortvariablen vorherzusagen.

Angenommen, eine Bevölkerungsgröße von 40.000 ergibt ein Vorhersageintervall von 30 bis 35 Blumengeschäften in einer bestimmten Stadt. Dies kann als akzeptabler Wertebereich angesehen werden oder nicht, je nachdem, wofür das Regressionsmodell verwendet wird.

Fazit

Je größer der R-Quadrat-Wert ist, desto genauer können die Prädiktorvariablen im Allgemeinen den Wert der Antwortvariablen vorhersagen.

Wie hoch ein R-Quadrat-Wert sein muss, um als „gut“ eingestuft zu werden, hängt vom jeweiligen Feld ab. Einige Felder erfordern eine höhere Genauigkeit als andere.

Um herauszufinden, was als „guter“ R-Quadrat-Wert angesehen wird, überlegen Sie, was in dem Bereich, in dem Sie arbeiten, allgemein akzeptiert wird, fragen Sie jemanden mit spezifischen Fachkenntnissen oder fragen Sie den Kunden / das Unternehmen, mit dem Sie die Regressionsanalyse durchführen für das, was sie für akzeptabel halten.

Wenn Sie die Beziehung zwischen Prädiktor und Antwortvariable erklären möchten, ist das R-Quadrat weitgehend irrelevant, da es keinen Einfluss auf die Interpretation des Regressionsmodells hat.

Wenn Sie an der Vorhersage der Antwortvariablen interessiert sind, sind Vorhersageintervalle im Allgemeinen nützlicher als R-Quadrat-Werte.

Weiterführende Literatur:

Pearson-Korrelationskoeffizient
Einführung in die einfache lineare Regression

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: