Gower distance

Klasteryzacja danych tabelarycznych, w których są jednocześnie dane categorical jak i dense jest kłopotliwe - w jaki sposób ustalić odległość między danymi. Gower distance to jeden z pomysłów. Robimy tak:

normalizujemy dane dense
odległość między wierszem $r_{i}$ oraz $r_{j}$ definiujemy jako średnia odległość po cechach. A odległość między wierszami według cechy $f$ to:
1. gdy $f$ categorical: 1 gdy wartości w kolumnie $f$ są takie same 0 w przeciwnym przypadku
2. gdy $f$ dense: po prostu różnicę między wartościami, min-max znormalizowana: $\frac{∣ r _{i}^{(f)} - r _{j}^{(f)} ∣}{ma x ( r ^{(f)} ) - min ( r ^{(f)} )}$ (to tak naprawdę jest scaled Manhattan distance)

Metryka najczęściej używana z Hierarchical clustering.

źródło: https://towardsdatascience.com/clustering-on-mixed-type-data-8bbd0a2569c3

Quartz 4

Explorer

Gower distance

Graph View