Klasteryzacja danych tabelarycznych, w których są jednocześnie dane categorical jak i dense jest kłopotliwe - w jaki sposób ustalić odległość między danymi. Gower distance to jeden z pomysłów. Robimy tak:

  1. normalizujemy dane dense
  2. odległość między wierszem oraz definiujemy jako średnia odległość po cechach. A odległość między wierszami według cechy to:
    1. gdy categorical: 1 gdy wartości w kolumnie są takie same 0 w przeciwnym przypadku
    2. gdy dense: po prostu różnicę między wartościami, min-max znormalizowana: (to tak naprawdę jest scaled Manhattan distance)

Metryka najczęściej używana z Hierarchical clustering.

źródło: https://towardsdatascience.com/clustering-on-mixed-type-data-8bbd0a2569c3