Binary Cross-Entropy

Dlaczego używa się binary cross-entropy jako funkcji straty?

Minimalizacja KL-divergence pomiędzy prawdziwym rozkładem $p$ a modelem $q_{λ}$ ( $λ$ to parametry modelu) to to samo co minimalizacja cross entropy (bo $ar g min_{λ} K L (p ∣∣ q_{λ}) = ar g min_{λ} H [p ∣∣ q] - H [p] = ar g min_{λ} H [p ∣∣ q]$ zobacz tutaj). A z kolei minimalizacja KL-divergence to inaczej maximum likelihood estimate parametrów $λ$ (zobacz Forward KL-divergence jako MLE). Czyli cross-entropy to funkcja straty, która powoduje, że cała optymalizacja robi MLE.

Źródło: Probabilistic Artificial Intelligence

Quartz 4

Explorer

Binary Cross-Entropy

Dlaczego używa się binary cross-entropy jako funkcji straty?

Graph View

Backlinks