Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
- K: Die Anzahl der Modellparameter …
Ein Residuum ist die Differenz zwischen einem beobachteten Wert und einem vorhergesagten Wert in einem Regressionsmodell.
Es wird berechnet als:
Residuum = Beobachteter Wert – Vorhergesagter Wert
Wenn wir die beobachteten Werte darstellen und die angepasste Regressionslinie überlagern, wären die Residuen für jede Beobachtung der vertikale Abstand zwischen der Beobachtung und der Regressionslinie:
Eine Art von Residuum, das wir häufig verwenden, um Ausreißer in einem Regressionsmodell zu identifizieren, ist als standardisiertes Residuum bekannt.
Es wird berechnet als:
r i = e i / s(e i ) = e i / RSE√1-hii
wo:
In der Praxis betrachten wir jedes standardisierte Residuum mit einem absoluten Wert größer als 3 oft als Ausreißer.
Dieses Tutorial bietet ein schrittweises Beispiel für die Berechnung von standardisierten Residuen in Excel.
Zuerst geben wir die Werte für einen kleinen Datensatz in Excel ein:
Als Nächstes gehen wir im oberen Menüband zur Registerkarte Daten und klicken in der Gruppe Analyse auf Datenanalyse:
Wenn Sie dieses Add-In noch nicht installiert haben, sehen Sie sich dieses Tutorial an. Es ist einfach zu installieren und völlig kostenlos.
Nachdem Sie auf Datenanalyse geklickt haben, klicken Sie auf die Option Regression und dann auf OK. Geben Sie im neuen Fenster, das sich öffnet, die folgenden Informationen ein und klicken Sie auf OK:
(Die Analyse im untenstehenden Bild wurden mit einer englischsprachen Excel-Version erstellt. In der deutschen Version können die Begriffe abweichen.)
Das Residuum für jede Beobachtung wird in der Ausgabe angezeigt:
Kopieren Sie diese Residuen und fügen Sie sie in eine neue Spalte neben den Originaldaten ein:
Als nächstes müssen wir die Hebelwirkung jeder Beobachtung berechnen.
Das folgende Bild zeigt, wie das geht:
Hier sind die Formeln, die in den verschiedenen Zellen verwendet werden:
Schließlich können wir die standardisierten Residuen mit der Formel berechnen:
r i = e i / RSE√1-hii
Die RSE für das Modell finden Sie in der Modellausgabe von vorher. Es stellt sich heraus, dass es 4,44 ist:
Daher können wir die folgende Formel verwenden, um das standardisierte Residuum für jede Beobachtung zu berechnen:
(Die Formeln im untenstehenden Bild wurden mit einer englischsprachen Excel-Version erstellt. Für die deutschen Formeln siehe z.B. hier)
Aus den Ergebnissen können wir erkennen, dass keines der standardisierten Residuen einen absoluten Wert von 3 überschreitet. Somit scheint keine der Beobachtungen Ausreißer zu sein.
Es ist erwähnenswert, dass Forscher in einigen Fällen Beobachtungen mit standardisierten Residuen, die einen absoluten Wert von 2 überschreiten, als Ausreißer betrachten.
Es liegt an Ihnen zu entscheiden, ob Sie einen absoluten Wert von 2 oder 3 als Schwellenwert für Ausreißer verwenden, abhängig von dem spezifischen Problem, an dem Sie arbeiten.
Standardisierte Residuen direkt berechnen mit dem Standardisierte Residuen - Rechner
Einführung in die multiple lineare Regression
Das Akaike-Informationskriterium (AIC) ist eine Metrik, die verwendet wird, um die Anpassung verschiedener Regressionsmodelle zu vergleichen.
Es wird berechnet als:
AIC = 2K – 2ln (L)
wo:
Die logistische Regression ist eine statistische Methode, die wir verwenden, um ein Regressionsmodell anzupassen, wenn die Antwortvariable binär ist.
Um zu beurteilen, wie gut ein logistisches Regressionsmodell zu einem Datensatz …