Инструмент для маркетологов и продуктовых аналитиков

Калькулятор A/B-теста

Q: Чем отличается односторонний тест от двустороннего?

Двусторонний тест проверяет, есть ли разница в любом направлении (лучше или хуже). Односторонний — только в одном (например, только «лучше»). Односторонний тест требует меньше данных, но пропускает ухудшение. Рекомендация: используйте двусторонний тест по умолчанию — он безопаснее.

Q: Сколько дней нужно проводить A/B-тест?

Минимум 7 дней для учёта недельных циклов поведения. Оптимально — 14-28 дней. Длительность зависит от трафика и необходимого размера выборки. Введите дневной трафик в калькулятор — он рассчитает количество дней автоматически. Тесты дольше 4 недель рискуют быть загрязнены внешними факторами.

Q: Что такое MDE (минимальный детектируемый эффект)?

MDE — это наименьшее изменение конверсии, которое вы хотите обнаружить. Задаётся в относительных процентах. MDE 20% при базовом CR 5% означает, что вы ищете рост до 6% (абсолютное изменение 1 п.п.). Выбирайте MDE, исходя из бизнес-значимости: какой прирост конверсии окупит затраты на внедрение?

Q: Что такое мощность теста (power)?

Мощность — это вероятность обнаружить реальный эффект, если он существует. При мощности 80% вы обнаружите эффект в 4 из 5 случаев. 20% — вероятность пропустить реальное улучшение (ошибка II рода). Для важных решений увеличьте мощность до 90-95%, но это потребует большей выборки.

Q: Можно ли остановить тест раньше, если результат уже значимый?

Крайне не рекомендуется. Это называется «peeking» — при многократной проверке значимости реальный уровень ошибки значительно превышает заявленные 5%. Определите размер выборки заранее и проводите анализ только после его набора. Для последовательного анализа существуют специальные методы (SPRT, always valid p-values).

Q: Какой уровень значимости выбрать: 90%, 95% или 99%?

95% (alpha = 0.05) — отраслевой стандарт, подходящий для большинства тестов. 90% — допустимо для предварительных тестов и итераций. 99% — для критически важных изменений (платёжная страница, core-функционал). Чем выше уровень, тем больше выборка. Для типичных маркетинговых тестов 95% — оптимальный баланс.

Q: Результат теста — «не значимо». Что делать?

Варианты: 1) Продолжить тест для набора большей выборки. 2) Принять, что разница мала, и оставить текущий вариант. 3) Пересмотреть гипотезу и протестировать более радикальное изменение. «Не значимо» не означает «варианты одинаковы» — возможно, эффект есть, но тест не имел достаточной мощности для его обнаружения.

Q: Какой статистический метод используется в калькуляторе?

Калькулятор использует Z-тест для сравнения двух пропорций (конверсий) с pooled standard error. Это стандартный метод для A/B-тестов с бинарной метрикой (конверсия / не конверсия). Для расчёта выборки применяется формула, учитывающая базовый CR, MDE, уровень значимости и мощность. Метод подходит при n > 30 и np > 5.

Рассчитайте необходимый размер выборки для эксперимента или проанализируйте результаты A/B-теста. Статистическая значимость, p-value, доверительные интервалы и рекомендации.

Параметры эксперимента

Базовая конверсия (текущий CR)

Минимальный детектируемый эффект (MDE)

Относительное изменение CR (20% = рост с 5% до 6%)

Значимость (alpha)

Мощность (1-beta)

Тип теста

Оценка длительности

Дневной трафик (посетителей)

Введите параметры

для расчёта размера выборки

Метод: Z-тест для двух пропорций | Нормальная аппроксимация | Pooled standard error

95%

Стандарт доверия

Принятый уровень значимости в индустрии

80%

Минимальная мощность

Рекомендуемый порог для обнаружения эффекта

Z-тест

Статистический метод

Тест для сравнения двух пропорций

Режима работы

Расчёт выборки и анализ результатов

Что такое A/B-тестирование

A/B-тестирование (сплит-тест) — метод сравнения двух вариантов страницы, элемента или предложения для определения, какой из них эффективнее. Посетители случайным образом делятся на группы: одна видит вариант A (контроль), другая — вариант B (тест). По итогам собранных данных статистическими методами определяется, есть ли значимая разница между вариантами.

🎯

Статистическая значимость

Показывает, что наблюдаемая разница между вариантами не случайна. При уровне значимости 95% вероятность ложноположительного результата составляет менее 5%. Это ключевой критерий для принятия решения по результатам теста.

📊

P-value (p-значение)

Вероятность получить такую же или более экстремальную разницу при условии, что нулевая гипотеза верна (варианты не отличаются). Чем меньше p-value, тем сильнее доказательства в пользу различий. Стандартный порог — 0.05.

📐

Доверительные интервалы

Диапазон значений, в котором с заданной вероятностью находится истинная разница между вариантами. 95%-й доверительный интервал означает: если повторить эксперимент 100 раз, в 95 случаях истинное значение попадёт в этот диапазон.

Где применяется A/B-тестирование

Сплит-тесты — универсальный инструмент оптимизации, который используется в маркетинге, продукте, дизайне и бизнесе.

📈

Маркетинг и реклама

Тестирование заголовков, текстов объявлений, CTR кнопок, форм захвата. Оптимизация рекламных кампаний в Яндекс Директе, VK Ads, email-рассылках для повышения конверсии и снижения стоимости привлечения.

💡

Продуктовые решения

Проверка гипотез о новых функциях: изменение онбординга, UX-потоков, навигации. Данные вместо интуиции — каждое продуктовое решение подкреплено экспериментом с измеримым результатом.

🎨

UX и дизайн

Сравнение макетов, цветовых схем, расположения элементов. Какая кнопка работает лучше — зелёная или оранжевая? Где разместить форму — вверху или внизу? A/B-тест даёт объективный ответ.

💰

Ценообразование

Тестирование разных ценовых точек, скидочных стратегий, пакетов услуг. Найдите оптимальную цену, которая максимизирует выручку без значительного падения конверсии.

✉️

Email-кампании

Тема письма, прехедер, время отправки, дизайн шаблона. Каждый элемент рассылки можно оптимизировать через A/B-тест, повышая Open Rate и Click Rate без увеличения базы подписчиков.

🖥️

Лендинги и посадочные

Заголовок, оффер, социальные доказательства, структура страницы. Тестирование элементов посадочной страницы напрямую влияет на стоимость лида и окупаемость рекламного бюджета.

Статистические концепции/ руководство

Понимание статистических основ поможет правильно спланировать и интерпретировать результаты A/B-теста. Вот ключевые понятия, которые использует наш калькулятор.

Ошибка I рода (alpha, ложноположительный результат)

Вероятность отклонить нулевую гипотезу, когда она на самом деле верна. Проще говоря — объявить победителя, когда разницы нет. При alpha = 0.05 вы допускаете 5% риск такой ошибки. Чем ниже alpha, тем строже критерий, но тем больше выборка нужна для обнаружения эффекта.

Ошибка II рода (beta, ложноотрицательный результат)

Вероятность не обнаружить реальную разницу, когда она существует. Мощность теста (Power) = 1 - beta. При мощности 80% вы обнаружите реальный эффект в 80 случаях из 100. Для критически важных экспериментов рекомендуется мощность 90-95%.

MDE (Minimum Detectable Effect)

Минимальный эффект, который вы хотите обнаружить. Если текущая конверсия 5% и MDE = 20%, вы ищете изменение с 5% до 6% (абсолютное изменение на 1 п.п.). Чем меньше MDE, тем больше выборка. Определяйте MDE исходя из бизнес-значимости: какое минимальное улучшение оправдывает изменения?

Размер выборки

Количество посетителей, необходимое в каждом варианте для достижения статистической надёжности. Зависит от четырёх параметров: базовая конверсия, MDE, уровень значимости и мощность. Формула основана на Z-тесте для двух пропорций. Недостаточная выборка — главная причина неправильных выводов из A/B-тестов.

Двусторонний тест — проверяет, есть ли разница в любую сторону (лучше или хуже). Используйте по умолчанию, когда результат может быть как положительным, так и отрицательным.

Односторонний тест — проверяет только одно направление (стало лучше). Требует меньшую выборку, но пропускает ухудшения. Используйте только когда уверены в направлении эффекта.

Лучшие практики A/B-тестирования

Правила, которые помогут получить достоверные результаты и избежать типичных ошибок при проведении экспериментов.

1Определите размер выборки заранее

Рассчитайте необходимый размер выборки до запуска теста. Это защитит от соблазна остановить тест раньше, увидев первые «значимые» результаты. Раннее останавливание (peeking) приводит к завышению доли ложноположительных результатов.

2Тестируйте одну гипотезу за раз

Если вы одновременно меняете заголовок, кнопку и изображение, невозможно понять, что именно повлияло на результат. Изолируйте переменные: один тест — одно изменение. Для множественных изменений используйте многовариантное тестирование.

3Минимум одна полная неделя

Поведение пользователей различается по дням недели. Тест, запущенный в понедельник и остановленный в среду, не учитывает выходные. Всегда проводите тест минимум 7 дней (а лучше 14), чтобы учесть все циклы поведения.

4Не подглядывайте в результаты

Многократная проверка p-value до окончания теста (peeking problem) увеличивает реальную вероятность ложноположительного результата с 5% до 20-30%. Дождитесь набора полной выборки, прежде чем анализировать данные.

5Учитывайте внешние факторы

Сезонность, маркетинговые акции, праздники и технические изменения на сайте могут исказить результаты. Не запускайте тест в периоды аномального трафика (распродажи, массовые рассылки). Документируйте внешние события во время теста.

6Проверяйте практическую значимость

Статистическая значимость не равна практической. Рост конверсии с 5.00% до 5.01% может быть статистически значимым при огромной выборке, но экономически бессмысленным. Всегда оценивайте абсолютное и относительное изменение в контексте бизнеса.

Частые ошибки в A/B-тестировании

Даже опытные маркетологи допускают эти ошибки. Знание подводных камней поможет получить достоверные результаты.

Слишком маленькая выборка

Запуск теста на 100-200 посетителях приводит к высокой вариативности результатов. Даже если p-value окажется ниже 0.05, вероятность ложноположительного результата при малой выборке значительно выше заявленной. Всегда рассчитывайте минимальный размер выборки до запуска.

Множественные сравнения без коррекции

Тестирование 10 вариантов одновременно с alpha = 0.05 даёт вероятность хотя бы одного ложноположительного результата около 40%. Для множественных сравнений используйте поправку Бонферрони или контролируйте FDR (False Discovery Rate).

Игнорирование эффекта новизны

Новый дизайн может привлечь внимание постоянных пользователей просто из-за новизны, а не из-за реального улучшения. Этот эффект исчезает через 2-4 недели. Учитывайте это при интерпретации результатов краткосрочных тестов.

Неправильная метрика успеха

Оптимизация клика по кнопке не гарантирует рост выручки. Выбирайте метрику, максимально близкую к бизнес-результату. Идеально — отслеживать воронку целиком: от клика до оплаты, чтобы убедиться, что улучшение на одном этапе не ухудшает другой.

Как пользоваться калькулятором

Два режима для полного цикла эксперимента: планирование и анализ результатов.

Укажите текущий CR

Введите текущую конверсию (baseline). Если не знаете точно — используйте данные из Яндекс Метрики или Google Analytics за последние 30 дней.

Задайте MDE

Минимальный эффект, который важен для бизнеса. Обычно 10-30% от текущей конверсии. Чем меньше MDE, тем больше нужна выборка.

Выберите параметры

Уровень значимости (95% стандарт), мощность (80% минимум), тип теста. Для большинства задач подходят значения по умолчанию.

Проанализируйте результаты

После набора выборки переключитесь на вкладку анализа. Введите данные обоих вариантов и получите вердикт с рекомендацией.

ЧАСТЫЕ ВОПРОСЫ

Часто задаваемые вопросы

Размер выборки зависит от четырёх параметров: текущей конверсии, желаемого минимального эффекта (MDE), уровня значимости и мощности теста. Для типичного теста (CR = 5%, MDE = 20%, alpha = 0.05, power = 80%) нужно около 4 000 посетителей на вариант. Используйте наш калькулятор для точного расчёта под ваши параметры.

P-value — это вероятность увидеть наблюдаемую (или более сильную) разницу при условии, что реальной разницы нет. Если p-value < 0.05, результат считается статистически значимым. Важно: p-value не показывает вероятность того, что гипотеза верна. Это вероятность данных при условии нулевой гипотезы.