https://proceedings.mlr.press/v151/esfandiari22a/esfandiari22a.pdf

Autorzy proponują:

  1. sposób na wprowadzenie losowości do labeli w datasecie (Label Differential Privacy)
  2. wprowadzają modyfikację do funkcji straty tak, aby kompensować wprowadzoną losowość Learning with Noisy Labels

Algorytm:

  1. klastrujemy dataset (w sposób unsupervised, tzn. bez użycia labeli, podczas eksperymentów używją zwykłego K-means)
  2. w ramach klastra liczymy rozkład pojawiania się labeli
  3. do każdego p-stwa występowania labeli dodajemy szum pochodzący z rozkładu Laplace z parametrem diversity równym gdzie to rozmiar klastra
  4. zerujemy p-stwa labeli, które są mniejsze od
  5. normalizujemy rozkład nad labelami
  6. z p-stwem zamieniamy label na label wylosowany z przekształconego rozkładu labeli w klastrze (w przeciwieństwie do Randomized Response, gdzie nowy label pochodził z rozkładu jednostajnego)

Główna teza publikacji jest taka, że jeśli klastry są homogeniczne, tzn. jeśli przykłady wewnątrz klastra mają zbliżony rozkład p-stwa nad możliwymi labelami (w przypadku CTR, CVR prediction problem oznacza to tyle, że p-stwo klika/konwersji jest zbliżone) to procedura pozwala mało stracić na jakości predykcji, jednocześnie zapewniając dobrą ochronę prywatności.

Autorzy w dodatku opisują w jaki sposób wprowadzić funkcję straty, które odbiasowuje dataset. Bias został wprowadzony przez losowanie. Jest to uogólnienie publikacji Learning with Noisy Labels - paper, w której podane był sposób na odbiasowanie dla labeli binarnych.

Opisują wykorzystanie zaufanego serwera do przeprowadzenia randomizacji w ramach klastra, jest to forma wykorzystania centralnego modelu differential privacy, co koresponduje silnie do fledge.