Das Resampling von Zeitreihendaten bedeutet, die Daten für einen neuen Zeitraum zusammenzufassen oder zu aggregieren.
Wir können die folgende grundlegende Syntax verwenden, um Zeitreihendaten in Python neu abzutasten:
#Finde die …
Der Ljung-Box-Test, benannt nach den Statistikern Greta M. Ljung und George EP Box, ist ein statistischer Test, der prüft, ob in einer Zeitreihe eine Autokorrelation vorliegt.
Der Ljung-Box-Test wird häufig in der Ökonometrie und in anderen Bereichen verwendet, in denen Zeitreihendaten üblich sind.
Hier sind die Grundlagen des Ljung-Box-Tests:
Der Ljung-Box-Test verwendet die folgenden Hypothesen:
H 0: Die Residuen werden unabhängig verteilt.
H A: Die Residuen sind nicht unabhängig verteilt; Sie weisen eine serielle Korrelation auf.
Im Idealfall möchten wir die Nullhypothese nicht ablehnen. Das heißt, wir möchten, dass der p-Wert des Tests größer als 0,05 ist, da dies bedeutet, dass die Residuen für unser Zeitreihenmodell unabhängig sind. Dies ist häufig eine Annahme, die wir beim Erstellen eines Modells treffen.
Die Teststatistik für den Ljung-Box-Test lautet wie folgt:
Q = n (n + 2) Σp k2 / (nk)
wo:
Die Teststatistik Q folgt einer Chi-Quadrat-Verteilung mit h Freiheitsgraden; das heißt, Q ~ X 2 (h).
Wir lehnen die Nullhypothese ab und sagen, dass die Residuen des Modells nicht unabhängig verteilt sind, wenn Q> X 21-α, h
Um einen Ljung-Box-Test in R für eine bestimmte Zeitreihe durchzuführen, können wir die Funktion Box.test() verwenden, die die folgende Notation verwendet:
Box.test(x, lag =1, type=c(“Box-Pierce”, “Ljung-Box”), fitdf = 0)
wo:
Das folgende Beispiel zeigt, wie der Ljung-Box-Test für einen beliebigen Vektor von 100 Werten durchgeführt wird, die einer Normalverteilung mit Mittelwert = 0 und Varianz = 1 folgen:
#Machen Sie dieses Beispiel reproduzierbar
set.seed (1)
# Generieren Sie eine Liste mit 100 normalverteilten Zufallsvariablen
data <- rnorm(100, 0, 1)
# Ljung-Box-Test durchführen
Box.test(data, lag = 1, type = "Ljung")
Dies erzeugt die folgende Ausgabe:
Box-Ljung test
data: data
X-squared = 0.0013736, df = 1, p-value = 0.9704
Die Teststatistik des Tests ist Q = 0,0013736 und der p-Wert des Tests ist 0,9704, was viel größer als 0,05 ist. Daher können wir die Nullhypothese des Tests nicht ablehnen und daraus schließen, dass die Datenwerte unabhängig sind.
Beachten Sie, dass wir in diesem Beispiel einen Lag von „1“ verwendet haben. Sie können jedoch abhängig von Ihrer speziellen Situation einen beliebigen Wert auswählen, den Sie für den Lag verwenden möchten.
Das Resampling von Zeitreihendaten bedeutet, die Daten für einen neuen Zeitraum zusammenzufassen oder zu aggregieren.
Wir können die folgende grundlegende Syntax verwenden, um Zeitreihendaten in Python neu abzutasten:
#Finde die …
Ein rollierender Median ist der Median einer bestimmten Anzahl früherer Perioden in einer Zeitreihe.
Um den gleitenden Median für eine Spalte in einem Pandas DataFrame zu berechnen, können wir die …