Dlaczego używa się binary cross-entropy jako funkcji straty?

Minimalizacja KL-divergence pomiędzy prawdziwym rozkładem a modelem ( to parametry modelu) to to samo co minimalizacja cross entropy (bo zobacz tutaj). A z kolei minimalizacja KL-divergence to inaczej maximum likelihood estimate parametrów (zobacz Forward KL-divergence jako MLE). Czyli cross-entropy to funkcja straty, która powoduje, że cała optymalizacja robi MLE.

Źródło: Probabilistic Artificial Intelligence