Pojęcia:

Quasi-identifier
Equivalence class - zbiór wierszy w datasecie, które mają takie same wartości quasi-identifiers

Algorytmy

Uwaga: wymagają podania hierarchii dla każdej cechy ze zbioru quasi-identifiers!

Mondrian https://people.cs.pitt.edu/~adamlee/courses/cs3525/2009fa/lectures/mondrian.pdf
datafly - algorytm generalizuje poprzez zamianę wartości cechy na tę wyżej w hierarchii, dopóki nie osiągniemy k-anonimowości
incognito

Podstawowy wskaźnik to k-anonimizacja. Na k-anonimizację istnieją ataki, dlatego rozszerza się tę definicję na l-diversity i podobne.

Pytania

Na jakim etapie musi nastąpić anonimizacja?

Czy na prodzie tez mamy anonimizować dane????? Czy tylko dane treningowe? Czy dane testowe?

Czy możemy po prostu wprowadzić do danych szum → oznaczać to będzie, że widząc ciąg klikniętych domen nigdy nie będziemy mieć pewności czy ten user tę domenę kliknął czy nie.

Jakie dane musimy anonimizować? Z poczty? A artykuły które user czyta? Jakie produkty ogląda na sklepie?

Źródło: An Open Source Python Library for Anonymizing Sensitive Data

Quartz 4

Explorer

Anonimizacja danych

Algorytmy

Pytania

Graph View

Table of Contents