So berechnen Sie RMSE in R

Der Root Mean Square Error (RMSE) ist eine Metrik, die angibt, wie weit unsere vorhergesagten Werte von unseren beobachteten Werten in einer Regressionsanalyse im Durchschnitt entfernt sind. Es wird berechnet als:

RMSE = √ [Σ (P _i – O _i ) ² / n]

wo:

Σ ist ein ausgefallenes Symbol, das „Summe“ bedeutet.
P _i ist der vorhergesagte Wert für die i-te Beobachtung im Datensatz
O _i ist der beobachtete Wert für die i-te Beobachtung im Datensatz
n ist die Stichprobengröße

In diesem Tutorial werden zwei Methoden erläutert, mit denen Sie RMSE in Excel berechnen können.

Methode 1: Schreiben Sie Ihre eigene Funktion

Angenommen, wir haben einen Datensatz mit einer Spalte, die die tatsächlichen Datenwerte enthält, und einer Spalte, die die vorhergesagten Datenwerte enthält:

#Datensatz erstellen
data <- data.frame(actual=c(34, 37, 44, 47, 48, 48, 46, 43, 32, 27, 26, 24),
                   predicted=c(37, 40, 46, 44, 46, 50, 45, 44, 34, 30, 22, 23))

#Datensatz anzeigen
data

   actual predicted
1      34        37
2      37        40
3      44        46
4      47        44
5      48        46
6      48        50
7      46        45
8      43        44
9      32        34
10     27        30
11     26        22
12     24        23

Um den RMSE zu berechnen, können wir die folgende Funktion verwenden:

#RMSE berechnen
sqrt(mean((data$actual - data$predicted)^2))
[1] 2.43242

Der mittlere quadratische Fehler beträgt 2,43242.

Methode 2: Verwenden Sie ein Paket

Wir könnten RMSE für denselben Datensatz auch mit der Funktion rmse() aus dem Metrics Paket berechnen, die die folgende Syntax verwendet:

rmse(actual, predicted)

wobei:

actual: Istwerte
predicted: vorhergesagte Werte

Hier ist die Syntax, die wir in unserem Beispiel verwenden würden:

#Metrics-Paket laden
library(Metrics)
#RMSE berechnen
rmse(data$actual, data$predicted)

[1] 2.43242

Der quadratische Mittelwertfehler beträgt 2,43242 und entspricht dem, was wir zuvor mit unserer eigenen Funktion berechnet haben.

Interpretieren von RMSE

RMSE ist eine nützliche Methode, um festzustellen, wie gut ein Regressionsmodell in einen Datensatz passt.

Je größer der RMSE ist, desto größer ist die Differenz zwischen den vorhergesagten und den beobachteten Werten, was bedeutet, dass ein Regressionsmodell umso schlechter zu den Daten passt. Umgekehrt ist ein Modell umso besser in der Lage, die Daten anzupassen, je kleiner der RMSE ist.

Es kann besonders nützlich sein, den RMSE zweier verschiedener Modelle miteinander zu vergleichen, um festzustellen, welches Modell besser zu den Daten passt.

Zusätzliche Ressourcen

Wie berechnet man MSE in R
So berechnen Sie MAPE in R

Methode 1: Schreiben Sie Ihre eigene Funktion

Methode 2: Verwenden Sie ein Paket

Interpretieren von RMSE

Zusätzliche Ressourcen

Statistik: Der Weg zur Datenanalyse

Resampling von Zeitreihendaten in Python (mit Beispielen)

So berechnen Sie den Rolling Median in Pandas (mit Beispielen)