Mamy dwa warianty testowe, A i B. Chcemy wiedzieć czy średnia wartości zebranych w wariancie B jest lepsze niż w wariancie A.

Możemy z każdego wariantu wysamplować wiele prób typu bootstrap, z każdej próby policzyć średnią (dla dużych prób będzie pochodzić z rozkładu normalnego, co wynika z centralnego twierdzenia granicznego), odjąć od siebie, też dostając przybliżenie rozkładu normalnego. A mając rozkład normalny może policzyć przedział ufności 95%.

Źródło: Blog - bootstrap confidence intervals