https://arxiv.org/pdf/1901.02212.pdf

Wykorzystują 2 rodzaje sygnałów (G-PPG, C-PPG), zdefiniowanych już we wcześniejszych pracach, mających za zadanie wydobywać kolory skóry zmieniające się pod wpływem przepływu krwi, liczonych z 3 różnych obszarów twarzy.

W publikacji rozpoczynają analizę od analizy par (tutaj pary występują naturalnie w datasecie Face Forensic - mają dostęp do oryginalnego i do zmienionego nagrania). Okazywało się, że policzenie średniej wartości sygnałów i sprawdzenie które jest wyższa dawało 65% skuteczność. Zrobienie tego samego na pochodnych sygnałów 75%!

Liczyli cross-correlation of power spectral density dla sygnałów ze środka twarzy () i lewej strony (). Porównanie tych wartości w obrębie pary dawało 97% skuteczności w separacji.

Następnie przeszli do budowy ogólnego klasyfikatora - sygnały były tak zaszumione, że nie można było dobrać jakiegoś thresholdu, który by separował przykłady negatywne od pozytywnych.

Ręcznie wyodrębnili mnóstwo cech dla sygnałów. Po wielu eksperymentach skończyli z jakimś zestawem cech wrzuconych do SVM, który osiągnął 75% skuteczności. SVM klasyfikował na podstawie odcinka sygnału pewnej długości - chcąc klasyfikować cały sygnał robili Majority Voting na odpowiedziach modelu z każdego kawałka sygnału. SVM zwraca tylko klasę, bez p-stwa, więc żeby mieć p-stwo to wyuczyli SVR, ale nie jest dla mnie jasne jak, bo przecież w ground truth mieli tylko klasę, bez p-stwa, więc nie wiem na czym uczyli tego SVRa.

Dla poprawnego działania ważne były dwa ogóle czynniki: w jaki sposób 3 obszary twarzy zachowują się względem siebie, tzn. np. oświetlenie powinno się tak samo na każdym z tych obszarów oraz w jaki sposób zachowuje się to w czasie, tzn. sygnały biologiczne powinny zmieniać się wraz z pulsem, więc powinno to być widoczne w analizie spektralnej.

Spróbowali też zwiększyć region z którego liczą sygnały, ale wtedy bardzo wzrósłby im liczba cech do SVMa, więc przeszli na CNN.

CNN

W jaki sposób przekształcić sygnał w obrazek? Otóż zrobili tak: wzięli duży obszar z centrum twarzy (taki, który był w miarę odporny na rotacje) - był on nieregularny, więc zmapowali go do prostokąta za pomocą Delaunay Triangulation, a prostokąt ten podzielili na 32 obszary. Z każdego takiego obszaru liczyli C-PPG. Nie mieli więc 3 obszary (tak jak wcześniej - środek, lewy i prawy policzek) tylko aż 32. Powstawał więc obrazek o rozmiarze 32 x 128 gdzie 128 to rozmiar okna (na takie rozmiary cięli sygnał).Wrzucali do prostej sieci CNN i dostali wynik 90% skuteczności.

W dalszej kolejności dla każdego regionu liczyli Power Spectral Density i w ten sposób otrzymywali obrazek 64 x 128. Skuteczność wzrosła do 96%.

signal-processing