Sie können die folgende Formel verwenden, um eine Median-IF-Funktion in Google Tabellen auszuführen:
=MEDIAN(IF(GROUP_RANGE=VALUE, MEDIAN_RANGE))
Diese Formel findet den Mittelwert aller Zellen in einem bestimmten Bereich, die …
Eine Möglichkeit, die Beziehung zwischen zwei Variablen zu quantifizieren, besteht darin, den Pearson-Korrelationskoeffizienten zu verwenden, der ein Maß für die lineare Assoziation zwischen zwei Variablen ist. Es nimmt immer einen Wert zwischen -1 und 1 an, wobei:
Je weiter der Korrelationskoeffizient von Null entfernt ist, desto stärker ist die Beziehung zwischen den beiden Variablen.
In diesem Tutorial wird erklärt, wie die Korrelation zwischen Variablen in Python berechnet wird.
Um die Korrelation zwischen zwei Variablen in Python zu berechnen, können wir die Funktion Numpy corrcoef() verwenden.
import numpy as np
np.random.seed(100)
#Erstellen Sie ein Array mit 50 zufälligen Ganzzahlen zwischen 0 und 10
var1 = np.random.randint(0, 10, 50)
#Erstellen Sie ein positiv korreliertes Array mit zufälligem Rauschen
var2 = var1 + np.random.normal(0, 10, 50)
#Berechnen Sie die Korrelation zwischen den beiden Arrays
np.corrcoef(var1, var 2)
[[ 1. 0.335]
[ 0.335 1. ]]
Wir können sehen, dass der Korrelationskoeffizient zwischen diesen beiden Variablen 0,335 beträgt, was eine positive Korrelation ist.
Standardmäßig erzeugt diese Funktion eine Matrix von Korrelationskoeffizienten. Wenn wir nur den Korrelationskoeffizienten zwischen den beiden Variablen zurückgeben möchten, können wir die folgende Syntax verwenden:
np.corrcoef(var1, var 2)[0,1]
0.335
Um zu testen, ob diese Korrelation statistisch signifikant ist, können wir den mit dem Pearson-Korrelationskoeffizienten verbundenen p-Wert mithilfe der Scipy pearsonr()-Funktion berechnen, die den Pearson-Korrelationskoeffizienten zusammen mit dem zweiseitigen p-Wert zurückgibt.
from scipy.stats.stats import pearsonr
pearsonr(var1, var2)
(0.335, 0.017398)
Der Korrelationskoeffizient beträgt 0,335 und der zweiseitige p-Wert beträgt 0,017. Da dieser p-Wert kleiner als 0,05 ist, würden wir schließen, dass es eine statistisch signifikante Korrelation zwischen den beiden Variablen gibt.
Wenn Sie die Korrelation zwischen mehreren Variablen in einem Pandas DataFrame berechnen möchten, können Sie einfach die Funktion .corr() verwenden.
import pandas as pd
data = pd.DataFrame(np.random.randint(0, 10, size=(5, 3)), columns=['A', 'B', 'C'])
data
A B C
0 8 0 9
1 4 0 7
2 9 6 8
3 1 8 1
4 8 0 8
#Korrelationskoeffizienten für alle paarweisen Kombinationen berechnen
data.corr()
A B C
A 1.000000 -0.775567 -0.493769
B -0.775567 1.000000 0.000000
C -0.493769 0.000000 1.000000
Wenn Sie nur die Korrelation zwischen zwei bestimmten Variablen im DataFrame berechnen möchten, können Sie die folgenden Variablen angeben:
data['A'].corr(data['B'])
-0.775567
Sie können die folgende Formel verwenden, um eine Median-IF-Funktion in Google Tabellen auszuführen:
=MEDIAN(IF(GROUP_RANGE=VALUE, MEDIAN_RANGE))
Diese Formel findet den Mittelwert aller Zellen in einem bestimmten Bereich, die …
Die prozentuale Änderung der Werte zwischen einer Periode und einer anderen Periode wird wie folgt berechnet:
Prozentuale Änderung = (Wert 2 – Wert 1 ) / Wert 1 * 100
Angenommen, ein Unternehmen macht in …