Pojęcia:

Algorytmy

Uwaga: wymagają podania hierarchii dla każdej cechy ze zbioru quasi-identifiers!

  1. Mondrian https://people.cs.pitt.edu/~adamlee/courses/cs3525/2009fa/lectures/mondrian.pdf
  2. datafly - algorytm generalizuje poprzez zamianę wartości cechy na tę wyżej w hierarchii, dopóki nie osiągniemy k-anonimowości
  3. incognito

Podstawowy wskaźnik to k-anonimizacja. Na k-anonimizację istnieją ataki, dlatego rozszerza się tę definicję na l-diversity i podobne.

Pytania

Na jakim etapie musi nastąpić anonimizacja?

Czy na prodzie tez mamy anonimizować dane????? Czy tylko dane treningowe? Czy dane testowe?

Czy możemy po prostu wprowadzić do danych szum oznaczać to będzie, że widząc ciąg klikniętych domen nigdy nie będziemy mieć pewności czy ten user tę domenę kliknął czy nie.

Jakie dane musimy anonimizować? Z poczty? A artykuły które user czyta? Jakie produkty ogląda na sklepie?

Źródło: An Open Source Python Library for Anonymizing Sensitive Data