Pojęcia:
- Quasi-identifier
- Equivalence class - zbiór wierszy w datasecie, które mają takie same wartości quasi-identifiers
Algorytmy
Uwaga: wymagają podania hierarchii dla każdej cechy ze zbioru quasi-identifiers!
- Mondrian https://people.cs.pitt.edu/~adamlee/courses/cs3525/2009fa/lectures/mondrian.pdf
- datafly - algorytm generalizuje poprzez zamianę wartości cechy na tę wyżej w hierarchii, dopóki nie osiągniemy k-anonimowości
- incognito
Podstawowy wskaźnik to k-anonimizacja. Na k-anonimizację istnieją ataki, dlatego rozszerza się tę definicję na l-diversity i podobne.
Pytania
Na jakim etapie musi nastąpić anonimizacja?
Czy na prodzie tez mamy anonimizować dane????? Czy tylko dane treningowe? Czy dane testowe?
Czy możemy po prostu wprowadzić do danych szum → oznaczać to będzie, że widząc ciąg klikniętych domen nigdy nie będziemy mieć pewności czy ten user tę domenę kliknął czy nie.
Jakie dane musimy anonimizować? Z poczty? A artykuły które user czyta? Jakie produkty ogląda na sklepie?
Źródło: An Open Source Python Library for Anonymizing Sensitive Data