So finden Sie den Bestimmungskoeffizienten (R-Quadrat) in R

Von Fabian
Kategorie: R
Tags: Regression
Lesezeit: 3 Minuten

Der Bestimmungskoeffizient (üblicherweise mit R 2 bezeichnet ) ist der Anteil der Varianz in der Antwortvariablen, der durch die erklärenden Variablen in einem Regressionsmodell erklärt werden kann.

Dieses Tutorial bietet ein Beispiel für das Finden und Interpretieren von R 2 in einem Regressionsmodell in R

Verwandt:Was ist ein guter R-Quadrat-Wert?

Beispiel: Finden und interpretieren Sie das R-Quadrat in R

Angenommen, wir haben den folgenden Datensatz, der Daten für die Anzahl der untersuchten Stunden, die vorbereiteten Prüfungen und die Prüfungsergebnisse für 15 Studenten enthält:

#Dataframe erstellen
df <- data.frame(hours=c(1, 2, 2, 4, 2, 1, 5, 4, 2, 4, 4, 3, 6, 5, 3),
                 prep_exams=c(1, 3, 3, 5, 2, 2, 1, 1, 0, 3, 4, 3, 2, 4, 4),
                 score=c(76, 78, 85, 88, 72, 69, 94, 94, 88, 92, 90, 75, 96, 90, 82))

# Die ersten sechs Zeilen des Dataframes anzeigen
head(df)

  hours prep_exams score
1     1          1    76
2     2          3    78
3     2          3    85
4     4          5    88
5     2          2    72
6     1          2    69

Der folgende Code zeigt, wie Sie ein Modell mit mehreren linearen Regressionen an diesen Datensatz anpassen und die Modellausgabe in R anzeigen:

#Regressionsmodell anpassen
model <- lm(score~hours+prep_exams, data=df)

# Modellzusammenfassung anzeigen
summary(model)

Call:
lm(formula = score ~ hours + prep_exams, data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-7.9896 -2.5514  0.3079  3.3370  7.0352 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  71.8078     3.5222  20.387 1.12e-10 ***
hours         5.0247     0.8964   5.606 0.000115 ***
prep_exams   -1.2975     0.9689  -1.339 0.205339    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.944 on 12 degrees of freedom
Multiple R-squared:  0.7237,    Adjusted R-squared:  0.6776 
F-statistic: 15.71 on 2 and 12 DF,  p-value: 0.0004454

Das R-Quadrat des Modells (ganz unten in der Ausgabe dargestellt) beträgt 0,7237.

Dies bedeutet, dass 72,37% der Abweichungen in den Prüfungsergebnissen durch die Anzahl der untersuchten Stunden und die Anzahl der vorbereiteten Prüfungen erklärt werden können.

Beachten Sie, dass Sie auch mit der folgenden Syntax auf diesen Wert zugreifen können:

summary(model)$r.squared

[1] 0.7236545

Interpretieren des R-Quadrat-Werts

Ein R-Quadrat-Wert liegt immer zwischen 0 und 1.

Ein Wert von 1 zeigt an, dass die erklärenden Variablen die Varianz in der Antwortvariablen perfekt erklären können, und ein Wert von 0 zeigt an, dass die erklärenden Variablen die Varianz in der Antwortvariablen nicht erklären können.

Je größer der R-Quadrat-Wert eines Regressionsmodells ist, desto besser können die erklärenden Variablen im Allgemeinen den Wert der Antwortvariablen vorhersagen.

In diesem Artikel erfahren Sie, wie Sie feststellen können, ob ein bestimmter R-Quadrat-Wert für ein bestimmtes Regressionsmodell als „gut“ eingestuft wird.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: