Klasteryzacja danych tabelarycznych, w których są jednocześnie dane categorical jak i dense jest kłopotliwe - w jaki sposób ustalić odległość między danymi. Gower distance to jeden z pomysłów. Robimy tak:
- normalizujemy dane dense
- odległość między wierszem oraz definiujemy jako średnia odległość po cechach. A odległość między wierszami według cechy to:
- gdy categorical: 1 gdy wartości w kolumnie są takie same 0 w przeciwnym przypadku
- gdy dense: po prostu różnicę między wartościami, min-max znormalizowana: (to tak naprawdę jest scaled Manhattan distance)
Metryka najczęściej używana z Hierarchical clustering.
źródło: https://towardsdatascience.com/clustering-on-mixed-type-data-8bbd0a2569c3