Настройте параметры и запустите симуляцию.
Чем выше σ — тем ниже TPR при том же n и лифте.
Лифт — это ожидаемое абсолютное изменение метрики между контрольной и тестовой группой. Если средняя выручка на пользователя в контроле равна 100 ₽, а в тесте ожидается 105 ₽ — лифт равен 5.
Лифт — это то минимальное изменение, которое вы хотите уметь обнаруживать. Чем меньше лифт, который нужно поймать — тем больше нужна выборка.
Монте-Карло — класс вычислительных алгоритмов, которые используют многократную случайную выборку для получения численных результатов. В контексте A/B-тестов метод позволяет эмпирически оценить мощность статистического критерия без аналитических формул.
Идея проста: мы знаем параметры популяции (μ, σ), поэтому можем генерировать сколько угодно синтетических экспериментов и смотреть, как часто критерий «срабатывает» при известном истинном эффекте.
TPR (True Positive Rate), или мощность теста — это вероятность того, что тест обнаружит реальный эффект, если он существует. Иначе говоря: в какой доле симуляций p-value окажется меньше α при ненулевом лифте.
TPR зависит от четырёх вещей: размера эффекта (Δ), объёма выборки (N), дисперсии метрики (σ²) и уровня значимости (α). Именно поэтому метрики с высокой дисперсией требуют значительно большей выборки — и дольше набираются.
Одна итерация для проверки лифта Δ при N наблюдениях:
Повторяем K раз (K = кол-во симуляций на лифт). TPR = число успехов / K.
TPR (мощность теста, 1 − β) — вероятность того, что тест обнаружит эффект, если он действительно существует.
В практике A/B-тестирования принято стремиться к TPR ≥ 80%. При 1000 симуляций это означает отклонение H₀ не менее чем в 800 случаях из 1000.
По оси X — лифт Δ в единицах метрики. По оси Y — TPR в процентах. Кривая показывает, насколько чувствителен тест к эффектам разного размера при заданных N и σ.
При ненулевом эффекте p-value концентрируются у нуля. Чем выше мощность, тем сильнее «скос» влево. Если распределение близко к равномерному — тест почти не различает H₁ и H₀.