Verzerrung durch ausgelassene Variablen tritt auf, wenn eine relevante Erklärungsvariable nicht in ein Regressionsmodell aufgenommen wird, was dazu führen kann, dass der Koeffizient einer oder mehrerer Erklärungsvariablen in dem Modell verzerrt ist.

Eine ausgelassene Variable wird oft aus einem von zwei Gründen in einem Regressionsmodell ausgelassen:

1. Daten für die Variable sind einfach nicht verfügbar.

2. Der Effekt der erklärenden Variable auf die Antwortvariable ist unbekannt.

Damit die weggelassene Variable die Koeffizienten im Modell tatsächlich verzerrt, müssen die folgenden zwei Voraussetzungen erfüllt sein:

1. Die ausgelassene Variable muss mit einer oder mehreren erklärenden Variablen im Modell korreliert sein.

2. Die ausgelassene Variable muss mit der Antwortvariable im Modell korreliert sein.

Die Auswirkungen der Verzerrung durch ausgelassene Variablen

Angenommen, wir haben zwei erklärende Variablen, A und B, und eine Antwortvariable, Y. Angenommen, wir passen ein einfaches lineares Regressionsmodell mit A als einziger erklärender Variable an und lassen B aus dem Modell weg.

Wenn B mit A und mit Y korreliert ist, führt dies zu einer Verzerrung der Koeffizientenschätzung von A. Das folgende Diagramm zeigt, wie die Koeffizientenschätzung von A in Abhängigkeit von der Art der Beziehung zu B verzerrt wird:

Verzerrung durch ausgelassene Variablen

Beispiel: Verzerrung durch ausgelassene Variablen

Angenommen, wir wollen den Einfluss der Quadratmeterzahl auf den Hauspreis untersuchen, dann passen wir das folgende einfache lineare Regressionsmodell an:

Hauspreis = B0 + B1(Quadratmeterzahl)

Angenommen, wir finden das geschätzte Modell wie folgt:

Hauspreis = 40.203,91 + 118,31(Quadratmeterzahl)

Der Koeffizient für die Quadratmeterzahl lässt sich so interpretieren, dass jede zusätzliche Quadratmeterzahl um eine Einheit mit einem Anstieg des Hauspreises um durchschnittlich 118,31 Dollar verbunden ist.

Lassen wir jedoch die erklärende Variable Alter weg, so stellt sich heraus, dass sie stark negativ mit der Grundfläche und stark negativ mit dem Hauspreis korreliert ist. Diese Variable sollte im Modell enthalten sein, ist es aber nicht. Daher ist die Koeffizientenschätzung für die Grundfläche wahrscheinlich verzerrt.

Ausgehend von der Tatsache, dass das Alter sowohl mit der erklärenden Variable als auch mit der Antwortvariablen im Modell negativ korreliert ist, würden wir erwarten, dass die Koeffizientenschätzung für die Grundfläche positiv verzerrt ist:

Positive Verzerrung durch ausgelassene Variablen

Angenommen, wir finden Daten für das Alter der Häuser und nehmen sie in das Modell auf. Das Modell lautet dann:

Hauspreis = B0 + B1(Quadratmeterzahl) + B2(Alter)

Angenommen, wir finden das geschätzte Modell wie folgt:

Hauspreis = 123.426,20 + 81,06(Quadratmeterzahl) - 1.291,04(Alter)

Beachten Sie, dass der geschätzte Koeffizient für die Quadratmeterzahl deutlich gesunken ist, was bedeutet, dass er im vorherigen Modell positiv verzerrt war.

Wir würden den Koeffizienten für die Quadratmeterzahl in diesem Modell so interpretieren, dass jede zusätzliche Zunahme der Quadratmeterzahl um eine Einheit mit einem durchschnittlichen Anstieg des Hauspreises von 81,06 Dollar verbunden ist, vorausgesetzt, das Alter bleibt konstant.

Was man gegen die Verzerrung durch weggelassene Variablen tun kann

Leider kommt es in der Praxis häufig zu Verzerrungen durch ausgelassene Variablen, da es in der Regel einige Variablen gibt, die in ein Regressionsmodell aufgenommen werden sollten, dies aber nicht tun, weil keine Daten für sie verfügbar sind oder die Beziehung zwischen ihnen und der Antwortvariable unbekannt ist.

Wenn möglich, sollten Sie versuchen, alle relevanten erklärenden Variablen in ein Regressionsmodell einzubeziehen, damit Sie die wahre Beziehung zwischen den erklärenden Variablen und der Antwortvariablen verstehen können.

Das Weglassen relevanter erklärender Variablen in einem Modell kann die Interpretation des Modells erheblich beeinträchtigen, wie wir im vorherigen Beispiel mit den Hauspreisen gesehen haben.

Zusätzliche Ressourcen

Was ist eine Störvariable?

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: