Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
- K: Die Anzahl der Modellparameter …
In der Regressionsanalyse bezieht sich Heteroskedastizität (manchmal buchstabierte Heteroskedastizität) auf die ungleiche Streuung von Residuen oder Fehlertermen. Insbesondere bezieht es sich auf den Fall, dass sich die Verteilung der Residuen über den Bereich der Messwerte systematisch ändert.
Die Heteroskedastizität ist ein Problem, da die gewöhnliche Regression der kleinsten Quadrate (OLS – Ordinary Least Squares) davon ausgeht, dass die Residuen aus einer Population mit Homoskedastizität stammen, was eine konstante Varianz bedeutet.
Wenn in einer Regressionsanalyse Heteroskedastizität vorliegt, sind die Ergebnisse der Analyse schwer zu vertrauen. Insbesondere erhöht die Heteroskedastizität die Varianz der Regressionskoeffizientenschätzungen, aber das Regressionsmodell greift dies nicht auf. Dies macht es für ein Regressionsmodell viel wahrscheinlicher, zu erklären, dass ein Begriff im Modell statistisch signifikant ist, obwohl dies tatsächlich nicht der Fall ist.
In diesem Artikel wird erläutert, wie Heteroskedastizität erkannt wird, was Heteroskedastizität verursacht und wie das Problem der Heteroskedastizität behoben werden kann.
Der einfachste Weg, Heteroskedastizität zu erkennen, ist ein angepasster Wert gegenüber dem Residuenplot.
Sobald Sie eine Regressionslinie an einen Datensatz angepasst haben, können Sie ein Streudiagramm erstellen, in dem die angepassten Werte des Modells im Vergleich zu den Residuen dieser angepassten Werte angezeigt werden.
Das Streudiagramm unten zeigt ein typisches angepasstes Wert-Residuen-Diagramm, in dem Heteroskedastizität vorliegt.
Beachten Sie, wie sich die Residuen viel weiter ausbreiten, wenn die angepassten Werte größer werden. Diese „Kegel“-Form ist ein verräterisches Zeichen für Heteroskedastizität.
Heteroskedastizität tritt natürlich in Datensätzen auf, in denen ein großer Bereich von beobachteten Datenwerten vorliegt. Zum Beispiel:
Einige Datensätze sind einfach anfälliger für Heteroskedastizität als andere.
Es gibt drei gängige Methoden, um die Heteroskedastizität zu beheben:
Eine Möglichkeit, die Heteroskedastizität zu beheben, besteht darin, die abhängige Variable auf irgendeine Weise zu transformieren. Eine übliche Transformation besteht darin, einfach das Protokoll der abhängigen Variablen zu erstellen. Wenn wir beispielsweise die Bevölkerungsgröße (unabhängige Variable) verwenden, um die Anzahl der Blumenläden in einer Stadt vorherzusagen (abhängige Variable), können wir stattdessen versuchen, die Bevölkerungsgröße zu verwenden, um das Protokoll der Anzahl der Blumenläden in einer Stadt vorherzusagen. Die Verwendung des Protokolls der abhängigen Variablen anstelle der ursprünglichen abhängigen Variablen führt häufig dazu, dass die Heteroskedastizität verschwindet.
Eine andere Möglichkeit, die Heteroskedastizität zu beheben, besteht darin, die abhängige Variable neu zu definieren. Ein üblicher Weg, dies zu tun, besteht darin, eine Rate für die abhängige Variable anstelle des Rohwerts zu verwenden. Anstatt beispielsweise die Bevölkerungsgröße zur Vorhersage der Anzahl der Blumenläden in einer Stadt zu verwenden, können wir stattdessen die Bevölkerungsgröße zur Vorhersage der Anzahl der Blumenläden pro Kopf verwenden. In den meisten Fällen verringert dies die Variabilität, die natürlich bei größeren Populationen auftritt, da wir eher die Anzahl der Blumenläden pro Person als die schiere Anzahl der Blumenläden messen.
Eine andere Möglichkeit, die Heteroskedastizität zu beheben, ist die gewichtete Regression. Diese Art der Regression weist jedem Datenpunkt eine Gewichtung basierend auf der Varianz seines angepassten Werts zu. Dies gibt Datenpunkten mit höheren Varianzen im Wesentlichen kleine Gewichte, wodurch ihre quadratischen Residuen verkleinert werden. Wenn die richtigen Gewichte verwendet werden, kann dies das Problem der Heteroskedastizität beseitigen.
Heteroskedastizität ist ein ziemlich häufiges Problem bei der Regressionsanalyse, da so viele Datensätze von Natur aus für nicht konstante Varianz anfällig sind. Durch Verwendung eines angepassten Werts gegenüber dem Residuenplot kann es jedoch ziemlich einfach sein, Heteroskedastizität zu erkennen. Durch Transformation der abhängigen Variablen, Neudefinition der abhängigen Variablen oder Verwendung der gewichteten Regression kann das Problem der Heteroskedastizität häufig beseitigt werden.
Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
Die logistische Regression ist eine statistische Methode, die wir verwenden, um ein Regressionsmodell anzupassen, wenn die Antwortvariable binär ist.
Um zu beurteilen, wie gut ein logistisches Regressionsmodell zu einem Datensatz …