Das Resampling von Zeitreihendaten bedeutet, die Daten für einen neuen Zeitraum zusammenzufassen oder zu aggregieren.
Wir können die folgende grundlegende Syntax verwenden, um Zeitreihendaten in Python neu abzutasten:
#Finde die …
Eine der am häufigsten verwendeten Metriken zur Messung der Vorhersagegenauigkeit eines Modells ist MSE, was für Mean Squared Error steht. Es wird berechnet als:
MSE = (1 / n) * Σ (Ist – Vorhersage) 2
wobei:
Je niedriger der Wert für MSE ist, desto genauer kann ein Modell Werte vorhersagen.
Abhängig davon, in welchem Format Ihre Daten vorliegen, gibt es zwei einfache Methoden, mit denen Sie der MSE eines Regressionsmodells in R berechnen können.
In einem Szenario haben Sie möglicherweise ein angepasstes Regressionsmodell und möchten einfach der MSE des Modells berechnen. Beispielsweise haben Sie möglicherweise das folgende Regressionsmodell:
#mtcars-Dataset laden
data(mtcars)
#Regressionsmodell anpassen
model <- lm(mpg~disp+hp, data=mtcars)
#Modellzusammenfassung anzeigen
model_summ <-summary(model)
Um den MSE für dieses Modell zu berechnen, können Sie die folgende Formel verwenden:
#MSE berechnen
mean(model_summ$residuals^2)
[1] 8.85917
Dies sagt uns, dass der MSE 8.85917 ist.
In einem anderen Szenario haben Sie möglicherweise einfach eine Liste mit vorhergesagten und tatsächlichen Werten. Beispielsweise:
#Erstellen Sie ein Dataframe mit einer Spalte mit tatsächlichen Werten und einer Spalte mit vorhergesagten Werten
data <- data.frame(pred = predict(model), actual = mtcars$mpg)
#Die ersten sechs Datenzeilen anzeigen
head(data)
pred actual
Mazda RX4 23.14809 21.0
Mazda RX4 Wag 23.14809 21.0
Datsun 710 25.14838 22.8
Hornet 4 Drive 20.17416 21.4
Hornet Sportabout 15.46423 18.7
Valiant 21.29978 18.1
In diesem Fall können Sie die folgende Formel zur Berechnung der MSE verwenden:
#MSE berechnen
mean((data$actual - data$pred)^2)
[1] 8.85917
Dies sagt uns, dass der MSE 8.85917 ist, was der MSE entspricht, die wir mit der vorherigen Methode berechnet haben.
Verwandt So berechnen Sie RMSE in R
Das Resampling von Zeitreihendaten bedeutet, die Daten für einen neuen Zeitraum zusammenzufassen oder zu aggregieren.
Wir können die folgende grundlegende Syntax verwenden, um Zeitreihendaten in Python neu abzutasten:
#Finde die …
Ein rollierender Median ist der Median einer bestimmten Anzahl früherer Perioden in einer Zeitreihe.
Um den gleitenden Median für eine Spalte in einem Pandas DataFrame zu berechnen, können wir die …