Ein Mann-Kendall-Trendtest wird verwendet, um festzustellen, ob in Zeitreihendaten ein Trend vorhanden ist oder nicht. Es ist ein nichtparametrischer Test, was bedeutet, dass keine zugrunde liegende Annahme über die Normalität …
Der Ausreißertest nach Grubbs ist ein statistischer Test, mit dem das Vorhandensein eines Ausreißers in einem Datensatz identifiziert werden kann. Um diesen Test verwenden zu können, sollte der Datensatz, den Sie analysieren, ungefähr normal verteilt sein und im Idealfall mindestens 7 Beobachtungen enthalten.
Hinweis: Wenn Sie den Verdacht haben, dass der Datensatz mehr als einen Ausreißer enthält, sollten Sie stattdessen den verallgemeinerten extrem studentisierten Abweichungstest für Ausreißer verwenden.
Wenn Sie den Verdacht haben, dass der Maximalwert im Datensatz ein Ausreißer ist, wird die Teststatistik wie folgt berechnet:
G = (x max – x ) / s
Wenn Sie den Verdacht haben, dass der Mindestwert im Datensatz ein Ausreißer ist, wird die Teststatistik wie folgt berechnet:
G = ( x – x min ) / s
Wenn Sie nicht sicher sind, ob der Maximal- oder Minimalwert im Datensatz ein Ausreißer ist und Sie einen zweiseitigen Test durchführen möchten, wird die Teststatistik wie folgt berechnet:
G = max | x i – x | / s
Dabei ist x der Stichprobenmittelwert und s die Stichprobenstandardabweichung.
Der kritische Wert für den Test wird berechnet als:
G kritisch = (n-1) t kritisch / √ [n (n-2 + t 2kritisch )]
Dabei ist t kritisch der kritische Wert der t-Verteilung mit n-2 Freiheitsgraden und das Signifikanzniveau ist α / n für einen Single-Tail-Test und α / (2n) für einen Two-Tail-Test.
Beispiel: Ausreißertest nach Grubbs in Excel
Bestimmen Sie im folgenden Datensatz, ob der Wert 60 ein Ausreißer ist oder nicht:
Schritt 1: Zuerst müssen wir sicherstellen, dass die Daten ungefähr normal verteilt sind. Dazu können wir ein Histogramm erstellen, um zu überprüfen, ob die Verteilung ungefähr eine Glockenform hat. Der folgende Screenshot zeigt, wie Sie mit dem Data Analysis ToolPak ein Histogramm in Excel erstellen :
Aus dem Histogramm können wir erkennen, dass die Daten ungefähr normal verteilt sind. Dies bedeutet, dass wir den Grubbs-Test durchführen können.
Schritt 2: Als nächstes führen wir den Grubbs-Test durch, um festzustellen, ob der Wert 60 tatsächlich ein Ausreißer im Datensatz ist. Der Screenshot unten zeigt die Formeln, die zur Durchführung des Grubbs-Tests verwendet werden sollen:
(Die Formeln wurden mit einer englischsprachen Excel-Version erstellt. Für die deutschen Formeln siehe z.B. hier)
Die Teststatistik G in Zelle D4 ist 3.603219.
Der kritische Wert G kritisch in Zelle D11 beträgt 2,556581. Da die Teststatistik größer als der kritische Wert ist, bedeutet dies, dass der Wert 60 in diesem Datensatz tatsächlich ein Ausreißer ist.
Was tun, wenn ein Ausreißer identifiziert wird?
Wenn der Grubbs-Test einen Ausreißer in Ihrem Datensatz identifiziert, haben Sie einige Optionen:
- Stellen Sie sicher, dass der Wert kein Tippfehler oder Dateneingabefehler ist. Gelegentlich sind Werte, die in Datensätzen als Ausreißer angezeigt werden, einfach Tippfehler, die von einer Person bei der Eingabe der Daten gemacht wurden. Gehen Sie zurück und überprüfen Sie, ob der Wert korrekt eingegeben wurde, bevor Sie weitere Entscheidungen treffen.
- Weisen Sie dem Ausreißer einen neuen Wert zu. Wenn sich herausstellt, dass der Ausreißer auf einen Tippfehler oder einen Dateneingabefehler zurückzuführen ist, können Sie ihm einen neuen Wert zuweisen, z. B. den Mittelwert oder den Median des Datensatzes.
- Entfernen Sie den Ausreißer. Wenn der Wert ein echter Ausreißer ist, können Sie ihn entfernen, wenn er erhebliche Auswirkungen auf Ihre Gesamtanalyse hat.
Unabhängig davon, was Sie mit dem Ausreißer tun möchten, notieren Sie dies unbedingt, wenn Sie die endgültigen Schlussfolgerungen Ihrer Analyse vorlegen.
So führen Sie einen Mann-Kendall-Trendtest in Python durch
So führen Sie einen Chow-Test in Python durch
Ein Chow-Test wird verwendet, um zu testen, ob die Koeffizienten in zwei verschiedenen Regressionsmodellen auf verschiedenen Datensätzen gleich sind.
Dieser Test wird typischerweise im Bereich der Ökonometrie mit Zeitreihendaten verwendet …