Jaccard-Koeffizient in R berechnen

Von Fabian
Kategorie: R
Lesezeit: 2 Minuten

Der Jaccard-Koeffizient misst die Ähnlichkeit zwischen zwei Datensätzen. Er kann zwischen 0 und 1 liegen. Je höher die Zahl, desto ähnlicher sind die beiden Datensätze.

Der Jaccard-Koeffizient wird berechnet als:

Jaccard-Koeffizient = (Anzahl der Beobachtungen in beiden Sätzen) / (Anzahl in einem der Sätze)

Oder in Notationsform geschrieben:

J (A, B) = | A∩B | / | A∪B |

In diesem Tutorial wird erklärt, wie die Jaccard-Koeffizient für zwei Datensätze in R berechnet wird.

Beispiel: Jaccard-Koeffizient in R

Angenommen, wir haben die folgenden zwei Datensätze:

a <- c(0, 1, 2, 5, 6, 8, 9)
b <- c(0, 2, 3, 4, 5, 7, 9)

Wir können die folgende Funktion definieren, um die Jaccard-Koeffizient zwischen den beiden Sätzen zu berechnen:

#Jaccard-Koeffizient Funktion definieren
jaccard <- function(a, b) {
    intersection = length(intersect(a, b))
    union = length(a) + length(b) - intersection
    return (intersection/union)
}

#Jaccard-Koeffizient zwischen zwei Datensätzen finden
jaccard(a, b)

0.4

Die Jaccard-Koeffizient zwischen den beiden Listen beträgt 0,4.

Beachten Sie, dass die Funktion 0 zurückgibt, wenn die beiden Sätze keine gemeinsamen Werte haben:

c <- c(0, 1, 2, 3, 4, 5)
d <- c(6, 7, 8, 9, 10)

jaccard(c, d)

[1] 0

Und die Funktion gibt 1 zurück, wenn die beiden Sätze identisch sind:

e <- c(0, 1, 2, 3, 4, 5)
f <- c(0, 1, 2, 3, 4, 5)

jaccard(e, f)

[1] 1

Die Funktion funktioniert auch für Mengen, die Zeichenfolgen enthalten:

g <- c('cat', 'dog', 'hippo', 'monkey')
h <- c('monkey', 'rhino', 'ostrich', 'salmon')

jaccard(g, h)

0.142857

Sie können diese Funktion auch verwenden, um die Jaccard-Distanz zwischen zwei Sätzen zu ermitteln. Dies ist die Unähnlichkeit zwischen zwei Sätzen und wird als 1 - Jaccard-Koeffizient berechnet.

a <- c(0, 1, 2, 5, 6, 8, 9)
b <- c(0, 2, 3, 4, 5, 7, 9)

#Jaccard Abstand zwischen den Sätzen a und b finden
1 - jaccard(a, b)

[1] 0.6

Weitere Informationen zum Jaccard-Koeffizient finden Sie auf dieser Wikipedia-Seite.

Statistik: Der Weg zur Datenanalyse

* Amazon Affiliate Link


Das könnte Sie auch interessieren: