Das Resampling von Zeitreihendaten bedeutet, die Daten für einen neuen Zeitraum zusammenzufassen oder zu aggregieren.
Wir können die folgende grundlegende Syntax verwenden, um Zeitreihendaten in Python neu abzutasten:
#Finde die …
Der Root Mean Square Error (RMSE) ist eine Metrik, die angibt, wie weit unsere vorhergesagten Werte von unseren beobachteten Werten in einer Regressionsanalyse im Durchschnitt entfernt sind. Es wird berechnet als:
RMSE = √ [Σ (P i – O i ) 2 / n]
wo:
In diesem Tutorial werden zwei Methoden erläutert, mit denen Sie RMSE in Excel berechnen können.
Angenommen, wir haben einen Datensatz mit einer Spalte, die die tatsächlichen Datenwerte enthält, und einer Spalte, die die vorhergesagten Datenwerte enthält:
#Datensatz erstellen
data <- data.frame(actual=c(34, 37, 44, 47, 48, 48, 46, 43, 32, 27, 26, 24),
predicted=c(37, 40, 46, 44, 46, 50, 45, 44, 34, 30, 22, 23))
#Datensatz anzeigen
data
actual predicted
1 34 37
2 37 40
3 44 46
4 47 44
5 48 46
6 48 50
7 46 45
8 43 44
9 32 34
10 27 30
11 26 22
12 24 23
Um den RMSE zu berechnen, können wir die folgende Funktion verwenden:
#RMSE berechnen
sqrt(mean((data$actual - data$predicted)^2))
[1] 2.43242
Der mittlere quadratische Fehler beträgt 2,43242.
Wir könnten RMSE für denselben Datensatz auch mit der Funktion rmse() aus dem Metrics Paket berechnen, die die folgende Syntax verwendet:
rmse(actual, predicted)
wobei:
Hier ist die Syntax, die wir in unserem Beispiel verwenden würden:
#Metrics-Paket laden
library(Metrics)
#RMSE berechnen
rmse(data$actual, data$predicted)
[1] 2.43242
Der quadratische Mittelwertfehler beträgt 2,43242 und entspricht dem, was wir zuvor mit unserer eigenen Funktion berechnet haben.
RMSE ist eine nützliche Methode, um festzustellen, wie gut ein Regressionsmodell in einen Datensatz passt.
Je größer der RMSE ist, desto größer ist die Differenz zwischen den vorhergesagten und den beobachteten Werten, was bedeutet, dass ein Regressionsmodell umso schlechter zu den Daten passt. Umgekehrt ist ein Modell umso besser in der Lage, die Daten anzupassen, je kleiner der RMSE ist.
Es kann besonders nützlich sein, den RMSE zweier verschiedener Modelle miteinander zu vergleichen, um festzustellen, welches Modell besser zu den Daten passt.
Das Resampling von Zeitreihendaten bedeutet, die Daten für einen neuen Zeitraum zusammenzufassen oder zu aggregieren.
Wir können die folgende grundlegende Syntax verwenden, um Zeitreihendaten in Python neu abzutasten:
#Finde die …
Ein rollierender Median ist der Median einer bestimmten Anzahl früherer Perioden in einer Zeitreihe.
Um den gleitenden Median für eine Spalte in einem Pandas DataFrame zu berechnen, können wir die …