So führen Sie eine multiple lineare Regression in Stata durch

Die multiple lineare Regression ist eine Methode, mit der Sie die Beziehung zwischen mehreren erklärenden Variablen und einer Antwortvariablen verstehen können.

In diesem Tutorial wird erklärt, wie Sie in Stata mehrere lineare Regressionen durchführen.

Beispiel: Multiple lineare Regression in Stata

Angenommen, wir möchten wissen, ob Meilen pro Gallone und Gewicht den Preis eines Autos beeinflussen. Um dies zu testen, können wir eine multiple lineare Regression durchführen, bei der Meilen pro Gallone und Gewicht als die beiden erklärenden Variablen und der Preis als Antwortvariable verwendet werden.

Führen Sie die folgenden Schritte in Stata aus, um eine multiple lineare Regression mit dem Datensatz auto durchzuführen, der Daten zu 74 verschiedenen Fahrzeugen enthält.

Schritt 1: Laden Sie die Daten.

Laden Sie die Daten, indem Sie Folgendes in das Befehlsfeld eingeben:

Verwenden Sie http://www.stata-press.com/data/r13/auto

Schritt 2: Holen Sie sich eine Zusammenfassung der Daten.

Machen Sie sich schnell ein Bild von den Daten, mit denen Sie arbeiten, indem Sie Folgendes in das Befehlsfeld eingeben:

zusammenfassen

Wir können sehen, dass der Datensatz 12 verschiedene Variablen enthält, aber die einzigen, die uns wichtig sind, sind mpg, Gewicht und Preis.

Wir können die folgenden grundlegenden zusammenfassenden Statistiken zu diesen drei Variablen sehen:

Preis | Mittelwert = 6.165 USD, min = 3.291 USD, max. 15.906 USD

mpg | Mittelwert = 21,29, min = 12, max = 41

Gewicht | Mittelwert = 3.019 Pfund, min = 1.760 Pfund, max = 4.840 Pfund

Schritt 3: Führen Sie eine multiple lineare Regression durch.

Geben Sie Folgendes in das Befehlsfeld ein, um eine multiple lineare Regression durchzuführen, wobei mpg und weight als erklärende Variablen und price als Antwortvariable verwendet werden.

regress price mpg weight

So interpretieren Sie die interessantesten Zahlen in der Ausgabe:

Prob> F: 0,000. Dies ist der p-Wert für die Gesamtregression. Da dieser Wert kleiner als 0,05 ist, zeigt dies an, dass die kombinierten erklärenden Variablen von mpg und Gewicht eine statistisch signifikante Beziehung zum Preis der Antwortvariablen haben.

R-Quadrat: 0,2934. Dies ist der Anteil der Varianz in der Antwortvariablen, der durch die erklärenden Variablen erklärt werden kann. In diesem Beispiel können 29,34% der Preisschwankungen durch mpg und Gewicht erklärt werden.

Coef (mpg): -49,512. Dies zeigt uns die durchschnittliche Preisänderung, die mit einer Erhöhung des mpg um eine Einheit verbunden ist, vorausgesetzt, das Gewicht wird konstant gehalten. In diesem Beispiel ist jede Erhöhung der mpg um eine Einheit mit einer durchschnittlichen Preissenkung von etwa 49,51 USD verbunden, vorausgesetzt, das Gewicht wird konstant gehalten.

Angenommen, die Autos A und B wiegen beide 2.000 Pfund. Wenn Auto A 20 mpg und Auto B nur 19 mpg bekommt, würden wir erwarten, dass der Preis von Auto A 49,51 USD unter dem Preis von Auto B liegt.

P>|t| (mpg): 0,567. Dies ist der p-Wert, der der Teststatistik für mpg zugeordnet ist. Da dieser Wert nicht weniger als 0,05 beträgt, gibt es keine Hinweise darauf, dass mpg eine statistisch signifikante Beziehung zum Preis hat.

Coef (Gewicht): 1,746. Dies zeigt uns die durchschnittliche Preisänderung, die mit einer Gewichtszunahme um eine Einheit verbunden ist, vorausgesetzt, mpg wird konstant gehalten. In diesem Beispiel ist jede Gewichtszunahme um eine Einheit mit einer durchschnittlichen Preiserhöhung von etwa 1,74 USD verbunden, vorausgesetzt, mpg wird konstant gehalten.

Angenommen, die Autos A und B erhalten beide 20 mpg. Wenn Auto A ein Pfund mehr wiegt als Auto B, wird Auto A voraussichtlich 1,74 USD mehr kosten.

P>|t| (Gewicht): 0,008. Dies ist der p-Wert, der der Teststatistik für das Gewicht zugeordnet ist. Da dieser Wert weniger als 0,05 beträgt, gibt es genügend Anhaltspunkte dafür, dass das Gewicht einen statistisch signifikanten Zusammenhang mit dem Preis hat.

Coef (_cons): 1946.069. Dies sagt uns den Durchschnittspreis eines Autos, wenn sowohl mpg als auch Gewicht Null sind. In diesem Beispiel beträgt der Durchschnittspreis 1.946 USD, wenn sowohl Gewicht als auch mpg Null sind. Die Interpretation ist nicht sehr sinnvoll, da das Gewicht und der mpg eines Autos nicht Null sein können, aber die Zahl 1946.069 wird benötigt, um eine Regressionsgleichung zu bilden.

Schritt 4: Ergebnisse.

Zuletzt möchten wir die Ergebnisse unserer multiplen linearen Regression berichten. Hier ist ein Beispiel dafür:

Eine multiple lineare Regression wurde durchgeführt, um die Beziehung zwischen dem Gewicht und dem mpg eines Autos und seinem Preis zu quantifizieren. Bei der Analyse wurde eine Stichprobe von 74 Autos verwendet.

Die Ergebnisse zeigten, dass es eine statistisch signifikante Beziehung zwischen Gewicht und Preis gab (t = 2,72, p = 0,008), aber es gab keine statistisch signifikante Beziehung zwischen mpg und Preis (und mpg (t = -57, p = 0,567)).

Beispiel: Multiple lineare Regression in Stata

Statistik: Der Weg zur Datenanalyse

So berechnen Sie AIC von Regressionsmodellen in Python

So berechnen Sie die AUC (Fläche unter der Kurve) in Python