https://proceedings.mlr.press/v151/esfandiari22a/esfandiari22a.pdf
Autorzy proponują:
- sposób na wprowadzenie losowości do labeli w datasecie (Label Differential Privacy)
- wprowadzają modyfikację do funkcji straty tak, aby kompensować wprowadzoną losowość Learning with Noisy Labels
Algorytm:
- klastrujemy dataset (w sposób unsupervised, tzn. bez użycia labeli, podczas eksperymentów używją zwykłego K-means)
- w ramach klastra liczymy rozkład pojawiania się labeli
- do każdego p-stwa występowania labeli dodajemy szum pochodzący z rozkładu Laplace z parametrem diversity równym gdzie to rozmiar klastra
- zerujemy p-stwa labeli, które są mniejsze od
- normalizujemy rozkład nad labelami
- z p-stwem zamieniamy label na label wylosowany z przekształconego rozkładu labeli w klastrze (w przeciwieństwie do Randomized Response, gdzie nowy label pochodził z rozkładu jednostajnego)
Główna teza publikacji jest taka, że jeśli klastry są homogeniczne, tzn. jeśli przykłady wewnątrz klastra mają zbliżony rozkład p-stwa nad możliwymi labelami (w przypadku CTR, CVR prediction problem oznacza to tyle, że p-stwo klika/konwersji jest zbliżone) to procedura pozwala mało stracić na jakości predykcji, jednocześnie zapewniając dobrą ochronę prywatności.
Autorzy w dodatku opisują w jaki sposób wprowadzić funkcję straty, które odbiasowuje dataset. Bias został wprowadzony przez losowanie. Jest to uogólnienie publikacji Learning with Noisy Labels - paper, w której podane był sposób na odbiasowanie dla labeli binarnych.
Opisują wykorzystanie zaufanego serwera do przeprowadzenia randomizacji w ramach klastra, jest to forma wykorzystania centralnego modelu differential privacy, co koresponduje silnie do fledge.