Калькулятор A/B теста

Q: Что такое p-value и как его интерпретировать?

P-value -- это вероятность получить такую же или более сильную разницу между вариантами, если на самом деле никакой разницы нет. P-value < 0.05 означает, что при отсутствии реального эффекта вероятность увидеть такую разницу менее 5%. Это НЕ вероятность того, что ваш вариант лучше -- это распространённое заблуждение.

Q: Какой размер выборки нужен для A/B теста?

Размер выборки зависит от четырёх факторов: текущей конверсии, минимального эффекта (MDE), уровня значимости (alpha) и мощности (power). Типичный пример: при конверсии 5% и желании обнаружить 20% относительное улучшение (до 6%) с alpha=0.05 и power=0.80 нужно около 15 000 посетителей на вариант.

Q: Можно ли останавливать тест, когда результат уже значим?

Нет, это одна из самых распространённых ошибок. При многократной проверке промежуточных результатов вероятность ложноположительного вывода резко возрастает. Дождитесь набора запланированного размера выборки или используйте метод Sequential Testing с корректировкой уровня значимости.

Q: Чем Z-тест отличается от t-теста для A/B тестов?

Z-тест и t-тест для пропорций при больших выборках (n > 30) дают практически одинаковые результаты. Z-тест использует нормальное распределение, t-тест -- распределение Стьюдента. Для типичных A/B тестов с тысячами посетителей разница пренебрежимо мала. Наш калькулятор использует Z-тест как стандартный метод.

Проверьте статистическую значимость вашего эксперимента, рассчитайте необходимый размер выборки и оцените длительность теста. Научный подход к принятию решений.

Контрольная группа

Текущий вариант (контроль)

Посетители

Конверсии

Тестовая группа

Новый вариант (тест)

Посетители

Конверсии

Введите данные обоих вариантов

для получения результатов A/B теста

Метод: Z-тест для двух пропорций (нормальная аппроксимация) | Двусторонний тест | Pooled standard error

Загрузка калькулятора...

Z-test

Метод

Тест для двух пропорций

p-value

Значимость

Двусторонний тест

95%

Дов. интервал

CI для разницы конверсий

Power

Мощность

Post-hoc анализ

Основы A/B тестирования

Три ключевых концепции, которые необходимо понимать перед запуском любого эксперимента.

Что такое A/B тест?

A/B тестирование (сплит-тест) -- это контролируемый эксперимент, в котором трафик случайным образом делится между двумя вариантами: контрольным (A) и тестовым (B). Цель -- определить, какой вариант показывает лучшие результаты по целевой метрике.

Ключевой принцип: рандомизация и изоляция одной переменной для корректных выводов.

Статистическая значимость

Статистическая значимость показывает, насколько вероятно, что наблюдаемая разница между вариантами -- не случайность. При p-value < 0.05 мы говорим, что результат значим на уровне 95%: вероятность случайного результата менее 5%.

Стандарт: p < 0.05 (95% уверенности). Для критичных решений используют p < 0.01.

Ошибки I и II рода

Ошибка I рода (alpha): ложноположительный результат -- вы решили, что B лучше, но на самом деле разницы нет. Ошибка II рода (beta): ложноотрицательный -- вы не обнаружили реальное улучшение. Мощность теста (1-beta) показывает способность обнаружить реальный эффект.

Баланс: alpha=5% защищает от ложных открытий, мощность 80%+ -- от пропуска реальных.

Что тестировать?

Шесть самых популярных сценариев A/B тестирования в маркетинге и продукте.

Конверсия сайта

Тестируйте изменения дизайна, формы заказа и элементов страницы для увеличения конверсии посетителей в клиентов.

Email-рассылки

Сравнивайте темы писем, время отправки, CTR кнопок и компоновку контента для повышения Open Rate и Click Rate.

CTA кнопки

Цвет, текст, размер, расположение кнопки -- каждый параметр влияет на кликабельность. Проверяйте гипотезы данными.

Ценообразование

Тестируйте структуру цен, оформление тарифов, якорные цены и скидки для максимизации среднего чека и конверсии.

UX и навигация

Оптимизируйте пользовательские сценарии: структуру меню, порядок шагов, расположение элементов и логику взаимодействия.

Лендинги

Сравнивайте заголовки, визуалы, социальные доказательства и структуру лендинга для увеличения лидогенерации.

Математика A/B теста

Формулы и статистические методы, которые стоят за калькулятором.

Z-статистика для двух пропорций

Z = (p̂₁ - p̂₂) / SE

SE = sqrt( p̂ * (1 - p̂) * (1/n₁ + 1/n₂) )

p̂ = (x₁ + x₂) / (n₁ + n₂) -- объединённая пропорция

Z-статистика измеряет расстояние между наблюдаемыми пропорциями в единицах стандартной ошибки. При больших выборках распределение Z аппроксимируется нормальным.

P-value (двусторонний тест)

p-value = 2 * (1 - Φ(|Z|))

Φ(x) -- функция стандартного нормального распределения (CDF)

P-value -- это вероятность получить такие же или более экстремальные результаты, если на самом деле разницы между вариантами нет (нулевая гипотеза верна).

95% доверительный интервал

CI = (p̂₂ - p̂₁) ± 1.96 * SE_diff

SE_diff = sqrt( p̂₁(1-p̂₁)/n₁ + p̂₂(1-p̂₂)/n₂ )

Доверительный интервал показывает диапазон, в котором с 95% вероятностью находится истинная разница между конверсиями вариантов A и B.

Размер выборки (Power Analysis)

n = (Z_α/2 * sqrt(2p̅(1-p̅)) + Z_β * sqrt(p₁(1-p₁) + p₂(1-p₂)))² / (p₂ - p₁)²

Формула определяет минимальное количество наблюдений на вариант, необходимое для обнаружения заданного эффекта (MDE) с указанной мощностью и уровнем значимости.

Продвинутые методы

Когда классического A/B теста недостаточно -- альтернативные подходы к экспериментированию.

Bayesian A/B тестирование

Байесовский подход

Вместо p-value байесовский метод вычисляет вероятность того, что B лучше A. Результат интуитивно понятен: «93% вероятность, что вариант B лучше». Использует бета-распределение и не требует фиксированного размера выборки.

Multi-Armed Bandit

Адаптивное распределение трафика

В отличие от A/B теста с фиксированным 50/50 сплитом, бандит динамически перенаправляет больше трафика на побеждающий вариант. Минимизирует потери от показа худшего варианта, но сложнее в интерпретации и может давать смещённые оценки.

Sequential Testing

Последовательное тестирование

Позволяет проверять результаты по мере накопления данных, не дожидаясь фиксированного размера выборки. Используются скорректированные пороги значимости (метод О'Брайена-Флеминга или spending-функции) для контроля ложноположительных результатов при множественных проверках.

MDE (Minimum Detectable Effect)

Минимальный обнаружимый эффект

MDE -- наименьшее изменение конверсии, которое тест способен обнаружить с заданной мощностью. Чем меньше MDE, тем больше выборка. Определяйте MDE из бизнес-логики: какое минимальное улучшение оправдывает затраты на внедрение изменения?

6 советов для корректных тестов

Типичные ошибки, которые приводят к неверным выводам, и как их избежать.

Не останавливайте тест рано

Дождитесь набора запланированного размера выборки. Ранняя остановка при "хороших" промежуточных результатах радикально увеличивает вероятность ложноположительного вывода.

Определите метрику заранее

Зафиксируйте первичную метрику ДО запуска теста. Выбор метрики после просмотра данных (p-hacking) -- одна из главных причин невоспроизводимых результатов.

Запускайте на полные недели

Поведение пользователей различается в будни и выходные. Длительность теста должна быть кратна 7 дням для учёта недельной сезонности.

Тестируйте одно изменение

При одновременном изменении нескольких элементов невозможно понять, что именно повлияло на результат. Изолируйте переменные или используйте многофакторный тест.

Проверяйте AA-тест

Перед запуском сплит-теста проведите AA-тест (оба варианта одинаковы). Если результат "значимый" -- у вас проблема с рандомизацией или инструментацией.

Учитывайте мощность

Мощность 80% означает, что у вас 20% шанс пропустить реальное улучшение. Для маленьких эффектов нужна большая выборка -- рассчитайте её заранее.

Как пользоваться калькулятором

Четыре шага к достоверным результатам вашего A/B теста.

Определите MDE и рассчитайте выборку

На вкладке "Размер выборки" введите текущую конверсию и минимальный эффект, который вас интересует. Калькулятор покажет, сколько посетителей нужно на каждый вариант.

Оцените длительность

Перейдите на вкладку "Длительность", введите дневной трафик. Калькулятор автоматически подставит размер выборки из предыдущего шага и покажет, сколько дней нужно на тест.

Запустите тест и соберите данные

Настройте эксперимент в вашем инструменте (Google Optimize, VWO, Optimizely или собственная система). Дождитесь набора запланированного количества посетителей.

Проверьте значимость

На вкладке "Тест значимости" введите данные обоих вариантов: количество посетителей и конверсий. Калькулятор мгновенно покажет, значим ли результат, p-value, Z-score и доверительный интервал.

ЧАСТЫЕ ВОПРОСЫ

Часто задаваемые вопросы

P-value -- это вероятность получить такую же или более сильную разницу между вариантами, если на самом деле никакой разницы нет. P-value < 0.05 означает, что при отсутствии реального эффекта вероятность увидеть такую разницу менее 5%. Это НЕ вероятность того, что ваш вариант лучше -- это распространённое заблуждение.

Размер выборки зависит от четырёх факторов: текущей конверсии, минимального эффекта (MDE), уровня значимости (alpha) и мощности (power). Типичный пример: при конверсии 5% и желании обнаружить 20% относительное улучшение (до 6%) с alpha=0.05 и power=0.80 нужно около 15 000 посетителей на вариант.

Нет, это одна из самых распространённых ошибок. При многократной проверке промежуточных результатов вероятность ложноположительного вывода резко возрастает. Дождитесь набора запланированного размера выборки или используйте метод Sequential Testing с корректировкой уровня значимости.

Z-тест и t-тест для пропорций при больших выборках (n > 30) дают практически одинаковые результаты. Z-тест использует нормальное распределение, t-тест -- распределение Стьюдента. Для типичных A/B тестов с тысячами посетителей разница пренебрежимо мала. Наш калькулятор использует Z-тест как стандартный метод.

Мощность -- это вероятность обнаружить реальное различие, если оно действительно существует. При мощности 80% у вас 20% шанс пропустить реальное улучшение. Рекомендуемый минимум -- 80%, для критичных решений -- 90%. Низкая мощность означает, что отрицательный результат теста ненадёжен.

MDE -- это наименьшее изменение, которое имеет бизнес-значение. Спросите себя: какое минимальное улучшение конверсии оправдает затраты на разработку и внедрение? Если конверсия 3% и MDE=10% (0.3 п.п.), нужна огромная выборка. Если MDE=50% (1.5 п.п.), выборка будет умеренной. Начните с бизнес-обоснования.

Да, но с оговорками. При множественных сравнениях (A/B/C/D) вероятность ложноположительного результата растёт. Необходимо применять поправку Бонферрони или метод контроля FDR. Также для каждого дополнительного варианта нужен пропорционально больший трафик.

Незначимый результат не означает, что разницы нет -- возможно, выборки недостаточно (низкая мощность). Проверьте мощность теста. Если она ниже 80%, нужно больше данных. Если мощность достаточна, а результат незначим -- разница действительно мала или её нет. Это тоже ценный результат.

Запускайте тест на полные недели (7, 14, 21 день), чтобы учесть разницу будни/выходные. Для длительных тестов (>4 недель) учитывайте праздники, акции и сезонные колебания. Лучшая практика -- использовать интерливинг (параллельный показ обоих вариантов), а не последовательный тест.

Калькулятор использует стандартный Z-тест для двух пропорций (нормальная аппроксимация биномиального распределения) -- тот же метод, что применяется в профессиональных инструментах (Google Optimize, VWO, Optimizely). Результаты точны для выборок от нескольких сотен посетителей. Для малых выборок лучше использовать точный тест Фишера.

СМЕЖНЫЕ ИНСТРУМЕНТЫ

Калькулятор A/B теста

Контрольная группа

Тестовая группа

Основы A/B тестирования

Что такое A/B тест?

Статистическая значимость

Ошибки I и II рода

Что тестировать?

Конверсия сайта

Email-рассылки

CTA кнопки

Ценообразование

UX и навигация

Лендинги

Математика A/B теста

Z-статистика для двух пропорций

P-value (двусторонний тест)

95% доверительный интервал

Размер выборки (Power Analysis)

Продвинутые методы

Bayesian A/B тестирование

Multi-Armed Bandit

Sequential Testing

MDE (Minimum Detectable Effect)

6 советов для корректных тестов

Не останавливайте тест рано

Определите метрику заранее

Запускайте на полные недели

Тестируйте одно изменение

Проверяйте AA-тест

Учитывайте мощность

Как пользоваться калькулятором

Определите MDE и рассчитайте выборку

Оцените длительность

Запустите тест и соберите данные

Проверьте значимость

Часто задаваемые вопросы

Похожие калькуляторы

Проверка контрастности WCAG

Калькулятор конвертации форматов файлов

Конвертер систем счисления (Bin/Oct/Dec/Hex)

Генератор UUID v4 онлайн

Генератор CSS box-shadow

Калькулятор A/B-теста (размер выборки)

Калькулятор выборки и репрезентативности

Калькулятор email-рассылки

Калькулятор конверсии воронки продаж

Калькулятор опросов и NPS

Калькулятор проверки гипотез (Z-test, t-test, χ², ANOVA)

Калькулятор P-Value и мощности выборки

Калькулятор ROI маркетинговой кампании

Генератор UTM-меток

Калькулятор ER (Engagement Rate)

Лиана Арифметова

Инструмент справочный — не заменяет эксперта

Контрольная группа

Тестовая группа