Inaczej - probabilistic inference. O co chodzi? Chodzi o to, że szukamy nie posteriora, tylko aproksymacji posteriora, z której łatwo się sampluje. Czyli szukamy jakiegoś “prostszego” posteriora, który jest zbliżony do tego “prawdziwego” posteriora.

Jedna z metod Variational Inference to Laplace Approximation.

Jak w praktyce podchodzi się do Variational Inference?

Często wybieramy jakiś szczególny podzbiór różnych rozkładów prawdopodobieństwa, które możemy sparametryzować (np. rodzina rozkładów normalnych), a następnie szukamy takiego zbioru parametrów (czyli takie konkretnego rozkładu prawdopodobieństwa z naszej wybranej rodziny), który minimalizuje odległość (najczęściej Kullback Leibler divergence) do naszego “prawdziwego” posteriora. W ten sposób sprowadzamy nasz problem do problemu optymalizacyjnego.

Jak efektywnie minimalizować Kullback Leibler divergence?

Można wykazać (patrz Probabilistic Artificial Intelligence, rozdział 5.5), że minimalizacja KL-divergence to to samo co maksymalizacja ELBO.

Źródło: Probabilistic Artificial Intelligence