Eine der Hauptannahmen bei der linearen Regression ist, dass es keine Korrelation zwischen den Residuen gibt, z. B. sind die Residuen unabhängig.
Eine Möglichkeit, um festzustellen, ob diese Annahme erfüllt …
Die multiple lineare Regression ist eine Methode, mit der wir die Beziehung zwischen mehreren erklärenden Variablen und einer Antwortvariablen verstehen können.
Leider ist ein Problem, das bei der Regression häufig auftritt, die Heteroskedastizität , bei der sich die Varianz der Residuen über einen Bereich von Messwerten systematisch ändert.
Ein Test, mit dem wir feststellen können, ob Heteroskedastizität vorliegt, ist der Breusch-Pagan-Test. Dieser Test erzeugt eine Chi-Quadrat-Teststatistik und einen entsprechenden p-Wert. Wenn der p-Wert unter einem bestimmten Schwellenwert liegt (übliche Auswahlmöglichkeiten sind 0,01, 0,05 und 0,10), gibt es ausreichende Hinweise darauf, dass Heteroskedastizität vorliegt.
In diesem Tutorial wird erklärt, wie ein Breusch-Pagan-Test in Stata durchgeführt wird.
Wir werden das integrierte Stata-Dataset auto verwenden, um zu veranschaulichen, wie der Breusch-Pagan-Test durchgeführt wird.
Schritt 1: Laden und Anzeigen der Daten.
Verwenden Sie zunächst den folgenden Befehl, um die Daten zu laden:
sysuse auto
Zeigen Sie dann die Rohdaten mit dem folgenden Befehl an:
br
Schritt 2: Führen Sie eine multiple lineare Regression durch.
Als nächstes geben wir den folgenden Befehl ein, um eine multiple lineare Regression durchzuführen, wobei der price als Antwortvariable und mpg und das weight als erklärende Variablen verwendet werden:
regress price mpg weight
Schritt 3: Führen Sie den Breusch-Pagan-Test durch.
Sobald das Regressionsmodell angepasst wurde, kann der Breusch-Pagan-Test mit dem hettest Befehl durchgeführt werden, der für „Heteroskedastizitätstest“ steht:
hettest
So interpretieren Sie die Ausgabe:
Ho: Dies ist die Nullhypothese des Tests, die besagt, dass zwischen den Residuen eine konstante Varianz besteht.
Variables: Hier erfahren Sie, welche Antwortvariable im Regressionsmodell verwendet wurde. In diesem Fall war es der variable Preis.
chi2(1): Dies ist die Chi-Quadrat-Teststatistik des Tests. In diesem Fall ist es 14,78.
Prob > chi2: Dies ist der p-Wert, der der Chi-Quadrat-Teststatistik entspricht. In diesem Fall ist es 0,0001. Da dieser Wert kleiner als 0,05 ist, können wir die Nullhypothese ablehnen und daraus schließen, dass die Daten heteroskedastisch sind.
Wenn Sie die Nullhypothese des Breusch-Pagan-Tests nicht ablehnen, liegt keine Heteroskedastizität vor, und Sie können mit der Interpretation der Ausgabe der ursprünglichen Regression fortfahren.
Wenn Sie jedoch die Nullhypothese des Breusch-Pagan-Tests ablehnen, bedeutet dies, dass die Daten heteroskedastisch sind. In diesem Fall sind die Standardfehler, die in der Ausgabetabelle der Regression angezeigt werden, unzuverlässig. Es gibt verschiedene Möglichkeiten, um dieses Problem zu beheben, darunter:
1. Transformieren Sie die Antwortvariable. Sie können versuchen, eine Transformation für die Antwortvariable durchzuführen. Beispielsweise könnten Sie log (Preis) anstelle von Preis als Antwortvariable verwenden. In der Regel ist das Protokoll der Antwortvariablen ein wirksames Mittel, um die Heteroskedastizität zu beseitigen. Eine andere übliche Transformation besteht darin, die Quadratwurzel der Antwortvariablen zu verwenden.
2. Verwenden Sie die gewichtete Regression. Diese Art der Regression weist jedem Datenpunkt eine Gewichtung basierend auf der Varianz seines angepassten Werts zu. Dies gibt Datenpunkten mit höheren Varianzen im Wesentlichen kleine Gewichte, wodurch ihre quadratischen Residuen verkleinert werden. Wenn die richtigen Gewichte verwendet werden, kann dies das Problem der Heteroskedastizität beseitigen.
3. Verwenden Sie robuste Standardfehler. Robuste Standardfehler sind für das Problem der Heteroskedastizität „robuster“ und liefern tendenziell ein genaueres Maß für den tatsächlichen Standardfehler eines Regressionskoeffizienten. In diesem Tutorial erfahren Sie, wie Sie robuste Standardfehler bei der Regression in Stata verwenden.
Eine der Hauptannahmen bei der linearen Regression ist, dass es keine Korrelation zwischen den Residuen gibt, z. B. sind die Residuen unabhängig.
Eine Möglichkeit, um festzustellen, ob diese Annahme erfüllt …
Eine der Hauptannahmen der linearen Regression ist, dass die Residuen normal verteilt sind.
Eine Möglichkeit, diese Annahme visuell zu überprüfen, besteht darin, ein Histogramm der Residuen zu erstellen und zu …