Inaczej - probabilistic inference. O co chodzi? Chodzi o to, że szukamy nie posteriora, tylko aproksymacji posteriora, z której łatwo się sampluje. Czyli szukamy jakiegoś “prostszego” posteriora, który jest zbliżony do tego “prawdziwego” posteriora.
Jedna z metod Variational Inference to Laplace Approximation.
Jak w praktyce podchodzi się do Variational Inference?
Często wybieramy jakiś szczególny podzbiór różnych rozkładów prawdopodobieństwa, które możemy sparametryzować (np. rodzina rozkładów normalnych), a następnie szukamy takiego zbioru parametrów (czyli takie konkretnego rozkładu prawdopodobieństwa z naszej wybranej rodziny), który minimalizuje odległość (najczęściej Kullback Leibler divergence) do naszego “prawdziwego” posteriora. W ten sposób sprowadzamy nasz problem do problemu optymalizacyjnego.
Jak efektywnie minimalizować Kullback Leibler divergence?
Można wykazać (patrz Probabilistic Artificial Intelligence, rozdział 5.5), że minimalizacja KL-divergence to to samo co maksymalizacja ELBO.