Ein Log-Log-Diagramm ist ein Diagramm, das sowohl auf der x-Achse als auch auf der y-Achse logarithmische Skalen verwendet.
Diese Art von Diagramm ist nützlich, um zwei Variablen zu visualisieren, wenn …
Dixons Q-Test, oft einfach als Q-Test bezeichnet, ist ein statistischer Test, der zum Erkennen von Ausreißern in einem Datensatz verwendet wird.
Die Teststatistik für den Q-Test lautet wie folgt:
Q = | x a – x b | / R
wobei X a ist der Verdacht auf Ausreißer, x b wird der Datenpunkt am nächsten x a, und R ist der Bereich des Datensatzes. In den meisten Fällen ist x a der Maximalwert im Datensatz, kann aber auch der Minimalwert sein.
Es ist wichtig zu beachten, dass der Q-Test normalerweise für kleine Datensätze durchgeführt wird und der Test davon ausgeht, dass die Daten normal verteilt sind. Es ist auch wichtig zu beachten, dass der Q-Test für einen bestimmten Datensatz nur einmal durchgeführt werden sollte.
Angenommen, wir haben den folgenden Datensatz:
1, 3, 5, 7, 8, 9, 13, 25
Wir können das fünfstufige Standardverfahren für Hypothesentests befolgen, um Dixons Q-Test von Hand durchzuführen, um festzustellen, ob der Maximalwert in diesem Datensatz ein Ausreißer ist:
Schritt 1. Geben Sie die Hypothesen an.
Die Nullhypothese (H0): Das Maximum ist kein Ausreißer.
Die alternative Hypothese: (Ha): Das Maximum ist ein Ausreißer.
Schritt 2. Bestimmen Sie ein zu verwendendes Signifikanzniveau.
Übliche Optionen sind 0,1, 0,05 und 0,01. Für dieses Beispiel wird ein Signifikanzniveau von 0,05 verwendet.
Schritt 3. Suchen Sie die Teststatistik.
Q = | x a – x b | / R
In diesem Fall ist unser Maximalwert x a = 25, unser nächstgelegener Wert ist x b = 13 und unser Bereich ist R = 25 – 1 = 24.
Somit ist Q = | 25 – 13 | / 24 = 0,5.
Als nächstes können wir diese Teststatistik mit den kritischen Werten des Q-Tests vergleichen, die unten für verschiedene Stichprobengrößen (n) und Konfidenzniveaus gezeigt werden:
n 90% 95% 99%
3 0.941 0.970 0.994
4 0.765 0.829 0.926
5 0.642 0.710 0.821
6 0.560 0.625 0.740
7 0.507 0.568 0.680
8 0.468 0.526 0.634
9 0.437 0.493 0.598
10 0.412 0.466 0.568
11 0.392 0.444 0.542
12 0.376 0.426 0.522
13 0.361 0.410 0.503
14 0.349 0.396 0.488
15 0.338 0.384 0.475
16 0.329 0.374 0.463
17 0.320 0.365 0.452
18 0.313 0.356 0.442
19 0.306 0.349 0.433
20 0.300 0.342 0.425
21 0.295 0.337 0.418
22 0.290 0.331 0.411
23 0.285 0.326 0.404
24 0.281 0.321 0.399
25 0.277 0.317 0.393
26 0.273 0.312 0.388
27 0.269 0.308 0.384
28 0.266 0.305 0.380
29 0.263 0.301 0.376
30 0.260 0.290 0.372
Der kritische Wert für eine Stichprobengröße von 8 und ein Konfidenzniveau von 95% beträgt 0,526.
Schritt 4. Die Nullhypothese ablehnen oder nicht ablehnen.
Da unsere Teststatistik Q (0,5) kleiner als der kritische Wert (0,526) ist, können wir die Nullhypothese nicht ablehnen.
Schritt 5. Interpretieren Sie die Ergebnisse.
Da wir die Nullhypothese nicht zurückweisen konnten, schließen wir, dass der Maximalwert 25 in diesem Datensatz kein Ausreißer ist.
Um Dixons Q-Test für denselben Datensatz in R durchzuführen, können wir die Funktion dixon.test() aus der outliers-Bibliothek verwenden, die die folgende Syntax verwendet:
dixon.test(data, , type = 10, opposite = FALSE)
Hinweis: Die vollständige Dokumentation zu dixon.test() finden Sie hier.
Der folgende Code zeigt, wie der Dixon-Q-Test durchgeführt wird, um festzustellen, ob der Maximalwert im Datensatz ein Ausreißer ist.
#Laden Sie die outliers-Bibliothek
library(outliers)
#Daten erstellen
data <- c(1, 3, 5, 7, 8, 9, 13, 25)
#Dixons Q-Test durchführen
dixon.test(data, type = 10)
# Dixon test for outliers
#
#data: data
#Q = 0.5, p-value = 0.06913
#alternative hypothesis: highest value 25 is an outlier
Aus der Ausgabe können wir erkennen, dass die Teststatistik Q = 0,5 und der entsprechende p-Wert 0,06913 ist. Daher können wir die Nullhypothese mit einem Signifikanzniveau von 0,05 nicht ablehnen und schließen daraus, dass 25 kein Ausreißer ist. Dies entspricht dem Ergebnis, das wir von Hand erhalten haben.
Ein Log-Log-Diagramm ist ein Diagramm, das sowohl auf der x-Achse als auch auf der y-Achse logarithmische Skalen verwendet.
Diese Art von Diagramm ist nützlich, um zwei Variablen zu visualisieren, wenn …
Bei der Verwendung von Klassifizierungsmodellen beim maschinellen Lernen verwenden wir häufig zwei Metriken, um die Qualität des Modells zu bewerten, nämlich Präzision und Erinnerung.
Precision: Korrigieren Sie positive Vorhersagen im …