Чувствительность
t-теста Стьюдента

Монте-Карло симуляция.
Как σ и n влияют на мощность теста.

§ 1 — Настройка метрик

Метрика A · наблюдений (n₁)

Метрика A · среднее (μ)

Метрика A · стандартное отклонение (σ)

Добавить вторую метрику для сравнения

Метрика B · наблюдений (n₂)

Метрика B · среднее (μ)

Метрика B · стандартное отклонение (σ)

§ 2 — Параметры симуляции

Абсолютный лифт (Δ)

Ошибка I рода (α)

Симуляций на лифт

Инициализация...

Настройте параметры и запустите симуляцию.
Чем выше σ — тем ниже TPR при том же n и лифте.

Подписаться на обновления инструментов @exp_tools_ru →

Теория

Что такое лифт (Δ)?

Лифт — это ожидаемое абсолютное изменение метрики между контрольной и тестовой группой. Если средняя выручка на пользователя в контроле равна 100 ₽, а в тесте ожидается 105 ₽ — лифт равен 5.

Лифт — это то минимальное изменение, которое вы хотите уметь обнаруживать. Чем меньше лифт, который нужно поймать — тем больше нужна выборка.

Относительный и абсолютный лифт

Абсолютный: Δ = μ_B − μ_A
Относительный: Δ% = (μ_B − μ_A) / μ_A × 100%

Что такое МС (Монте-Карло)?

Монте-Карло — класс вычислительных алгоритмов, которые используют многократную случайную выборку для получения численных результатов. В контексте A/B-тестов метод позволяет эмпирически оценить мощность статистического критерия без аналитических формул.

Идея проста: мы знаем параметры популяции (μ, σ), поэтому можем генерировать сколько угодно синтетических экспериментов и смотреть, как часто критерий «срабатывает» при известном истинном эффекте.

Когда нужен Монте-Карло?
Когда аналитическая формула мощности недоступна или ненадёжна — например, для метрик с тяжёлыми хвостами, ratio-метрик, нестандартных дизайнов экспериментов.

Что такое TPR (мощность теста)?

TPR (True Positive Rate), или мощность теста — это вероятность того, что тест обнаружит реальный эффект, если он существует. Иначе говоря: в какой доле симуляций p-value окажется меньше α при ненулевом лифте.

Практическое правило: стремитесь к TPR ≥ 80%. Это означает, что из 100 запущенных A/B тестов с реальным эффектом вы поймаете не менее 80.

TPR зависит от четырёх вещей: размера эффекта (Δ), объёма выборки (N), дисперсии метрики (σ²) и уровня значимости (α). Именно поэтому метрики с высокой дисперсией требуют значительно большей выборки — и дольше набираются.

Алгоритм симуляции

Одна итерация для проверки лифта Δ при N наблюдениях:

Генерируем выборку из N наблюдений из распределения N(μ, σ²)
Делим выборку пополам — группы A и B, по N/2 наблюдений каждая
Сдвигаем все значения в группе B на величину лифта Δ
Применяем t-тест Уэлча к группам A и B, получаем p-value
Фиксируем: p-value < α → успех (обнаружили эффект)

Повторяем K раз (K = кол-во симуляций на лифт). TPR = число успехов / K.

t-статистика Уэлча

t = (x̄_B − x̄_A) / √(s²_A/n_A + s²_B/n_B)

df = (s²_A/n_A + s²_B/n_B)² / [(s²_A/n_A)²/(n_A−1) + (s²_B/n_B)²/(n_B−1)]

TPR — True Positive Rate

TPR (мощность теста, 1 − β) — вероятность того, что тест обнаружит эффект, если он действительно существует.

Эмпирическая оценка через симуляцию

TPR = #{симуляций, где p-value < α} / #{всего симуляций}

В практике A/B-тестирования принято стремиться к TPR ≥ 80%. При 1000 симуляций это означает отклонение H₀ не менее чем в 800 случаях из 1000.

Что влияет на TPR?

Размер эффекта (Δ) — чем больше лифт, тем выше TPR
Размер выборки (N) — больше наблюдений → выше мощность
Дисперсия (σ²) — ключевой инсайт: чем выше σ, тем ниже TPR при тех же N и Δ
Уровень значимости (α) — выше α → выше TPR, но растёт FPR

Почему σ так важна?
t-статистика = Δ / (σ · √(2/N)). При фиксированном Δ и N — рост σ вдвое уменьшает t вдвое. Метрика с CV = 100% требует в 4× больше наблюдений, чем метрика с CV = 50%, чтобы поймать тот же эффект.

Как читать кривую мощности

По оси X — лифт Δ в единицах метрики. По оси Y — TPR в процентах. Кривая показывает, насколько чувствителен тест к эффектам разного размера при заданных N и σ.

Если при минимальном значимом лифте TPR < 80% — нужно увеличить N или снизить σ (CUPED, стратификация, трансформация метрики)
Сравнение двух кривых показывает, какая метрика «чувствительнее» к одному и тому же эффекту

Распределение p-value

При ненулевом эффекте p-value концентрируются у нуля. Чем выше мощность, тем сильнее «скос» влево. Если распределение близко к равномерному — тест почти не различает H₁ и H₀.

При H₀ (нет эффекта)

p-value ~ Uniform(0, 1)

При H₁ (есть эффект)

p-value смещены к нулю · доля < α ≈ TPR

Виталий Черемисинов
× Искандер Мирмахмадов

Сооснователь EXPF. В 2025 году EXPF был продан Авито. Отвечает за бизнес trisigma.io.

Искандер Мирмахмадов — сооснователь EXPF, отвечает за продукт trisigma.io.

✦ ТГ канал @channel_vit ✦ Для связи @vitche ✦ Проект trisigma.io

Чувствительностьt-теста Стьюдента