Label differential privacy via clustering

https://proceedings.mlr.press/v151/esfandiari22a/esfandiari22a.pdf

Autorzy proponują:

sposób na wprowadzenie losowości do labeli w datasecie (Label Differential Privacy)
wprowadzają modyfikację do funkcji straty tak, aby kompensować wprowadzoną losowość Learning with Noisy Labels

Algorytm:

klastrujemy dataset (w sposób unsupervised, tzn. bez użycia labeli, podczas eksperymentów używją zwykłego K-means)
w ramach klastra liczymy rozkład pojawiania się labeli
do każdego p-stwa występowania labeli dodajemy szum pochodzący z rozkładu Laplace z parametrem diversity równym $\frac{σ}{n _{c}}$ gdzie $n_{c}$ to rozmiar klastra
zerujemy p-stwa labeli, które są mniejsze od $τ$
normalizujemy rozkład nad labelami
z p-stwem $λ$ zamieniamy label na label wylosowany z przekształconego rozkładu labeli w klastrze (w przeciwieństwie do Randomized Response, gdzie nowy label pochodził z rozkładu jednostajnego)

Główna teza publikacji jest taka, że jeśli klastry są homogeniczne, tzn. jeśli przykłady wewnątrz klastra mają zbliżony rozkład p-stwa nad możliwymi labelami (w przypadku CTR, CVR prediction problem oznacza to tyle, że p-stwo klika/konwersji jest zbliżone) to procedura pozwala mało stracić na jakości predykcji, jednocześnie zapewniając dobrą ochronę prywatności.

Autorzy w dodatku opisują w jaki sposób wprowadzić funkcję straty, które odbiasowuje dataset. Bias został wprowadzony przez losowanie. Jest to uogólnienie publikacji Learning with Noisy Labels - paper, w której podane był sposób na odbiasowanie dla labeli binarnych.

Opisują wykorzystanie zaufanego serwera do przeprowadzenia randomizacji w ramach klastra, jest to forma wykorzystania centralnego modelu differential privacy, co koresponduje silnie do fledge.

Quartz 4

Explorer

Label differential privacy via clustering

Graph View

Backlinks