calcal.ru
Инструмент для маркетологов и продуктовых аналитиков

Калькулятор A/B-теста

Рассчитайте необходимый размер выборки для эксперимента или проанализируйте результаты A/B-теста. Статистическая значимость, p-value, доверительные интервалы и рекомендации.

95%
Стандарт доверия
Принятый уровень значимости в индустрии
80%
Минимальная мощность
Рекомендуемый порог для обнаружения эффекта
Z-тест
Статистический метод
Тест для сравнения двух пропорций
2
Режима работы
Расчёт выборки и анализ результатов

Что такое A/B-тестирование

A/B-тестирование (сплит-тест) — метод сравнения двух вариантов страницы, элемента или предложения для определения, какой из них эффективнее. Посетители случайным образом делятся на группы: одна видит вариант A (контроль), другая — вариант B (тест). По итогам собранных данных статистическими методами определяется, есть ли значимая разница между вариантами.

🎯

Статистическая значимость

Показывает, что наблюдаемая разница между вариантами не случайна. При уровне значимости 95% вероятность ложноположительного результата составляет менее 5%. Это ключевой критерий для принятия решения по результатам теста.

📊

P-value (p-значение)

Вероятность получить такую же или более экстремальную разницу при условии, что нулевая гипотеза верна (варианты не отличаются). Чем меньше p-value, тем сильнее доказательства в пользу различий. Стандартный порог — 0.05.

📐

Доверительные интервалы

Диапазон значений, в котором с заданной вероятностью находится истинная разница между вариантами. 95%-й доверительный интервал означает: если повторить эксперимент 100 раз, в 95 случаях истинное значение попадёт в этот диапазон.

Где применяется A/B-тестирование

Сплит-тесты — универсальный инструмент оптимизации, который используется в маркетинге, продукте, дизайне и бизнесе.

📈

Маркетинг и реклама

Тестирование заголовков, текстов объявлений, CTR кнопок, форм захвата. Оптимизация рекламных кампаний в Яндекс Директе, VK Ads, email-рассылках для повышения конверсии и снижения стоимости привлечения.

💡

Продуктовые решения

Проверка гипотез о новых функциях: изменение онбординга, UX-потоков, навигации. Данные вместо интуиции — каждое продуктовое решение подкреплено экспериментом с измеримым результатом.

🎨

UX и дизайн

Сравнение макетов, цветовых схем, расположения элементов. Какая кнопка работает лучше — зелёная или оранжевая? Где разместить форму — вверху или внизу? A/B-тест даёт объективный ответ.

💰

Ценообразование

Тестирование разных ценовых точек, скидочных стратегий, пакетов услуг. Найдите оптимальную цену, которая максимизирует выручку без значительного падения конверсии.

✉️

Email-кампании

Тема письма, прехедер, время отправки, дизайн шаблона. Каждый элемент рассылки можно оптимизировать через A/B-тест, повышая Open Rate и Click Rate без увеличения базы подписчиков.

🖥️

Лендинги и посадочные

Заголовок, оффер, социальные доказательства, структура страницы. Тестирование элементов посадочной страницы напрямую влияет на стоимость лида и окупаемость рекламного бюджета.

Статистические концепции/ руководство

Понимание статистических основ поможет правильно спланировать и интерпретировать результаты A/B-теста. Вот ключевые понятия, которые использует наш калькулятор.

Ошибка I рода (alpha, ложноположительный результат)

Вероятность отклонить нулевую гипотезу, когда она на самом деле верна. Проще говоря — объявить победителя, когда разницы нет. При alpha = 0.05 вы допускаете 5% риск такой ошибки. Чем ниже alpha, тем строже критерий, но тем больше выборка нужна для обнаружения эффекта.

Ошибка II рода (beta, ложноотрицательный результат)

Вероятность не обнаружить реальную разницу, когда она существует. Мощность теста (Power) = 1 - beta. При мощности 80% вы обнаружите реальный эффект в 80 случаях из 100. Для критически важных экспериментов рекомендуется мощность 90-95%.

MDE (Minimum Detectable Effect)

Минимальный эффект, который вы хотите обнаружить. Если текущая конверсия 5% и MDE = 20%, вы ищете изменение с 5% до 6% (абсолютное изменение на 1 п.п.). Чем меньше MDE, тем больше выборка. Определяйте MDE исходя из бизнес-значимости: какое минимальное улучшение оправдывает изменения?

Размер выборки

Количество посетителей, необходимое в каждом варианте для достижения статистической надёжности. Зависит от четырёх параметров: базовая конверсия, MDE, уровень значимости и мощность. Формула основана на Z-тесте для двух пропорций. Недостаточная выборка — главная причина неправильных выводов из A/B-тестов.

Двусторонний тест — проверяет, есть ли разница в любую сторону (лучше или хуже). Используйте по умолчанию, когда результат может быть как положительным, так и отрицательным.

Односторонний тест — проверяет только одно направление (стало лучше). Требует меньшую выборку, но пропускает ухудшения. Используйте только когда уверены в направлении эффекта.

Лучшие практики A/B-тестирования

Правила, которые помогут получить достоверные результаты и избежать типичных ошибок при проведении экспериментов.

1Определите размер выборки заранее

Рассчитайте необходимый размер выборки до запуска теста. Это защитит от соблазна остановить тест раньше, увидев первые «значимые» результаты. Раннее останавливание (peeking) приводит к завышению доли ложноположительных результатов.

2Тестируйте одну гипотезу за раз

Если вы одновременно меняете заголовок, кнопку и изображение, невозможно понять, что именно повлияло на результат. Изолируйте переменные: один тест — одно изменение. Для множественных изменений используйте многовариантное тестирование.

3Минимум одна полная неделя

Поведение пользователей различается по дням недели. Тест, запущенный в понедельник и остановленный в среду, не учитывает выходные. Всегда проводите тест минимум 7 дней (а лучше 14), чтобы учесть все циклы поведения.

4Не подглядывайте в результаты

Многократная проверка p-value до окончания теста (peeking problem) увеличивает реальную вероятность ложноположительного результата с 5% до 20-30%. Дождитесь набора полной выборки, прежде чем анализировать данные.

5Учитывайте внешние факторы

Сезонность, маркетинговые акции, праздники и технические изменения на сайте могут исказить результаты. Не запускайте тест в периоды аномального трафика (распродажи, массовые рассылки). Документируйте внешние события во время теста.

6Проверяйте практическую значимость

Статистическая значимость не равна практической. Рост конверсии с 5.00% до 5.01% может быть статистически значимым при огромной выборке, но экономически бессмысленным. Всегда оценивайте абсолютное и относительное изменение в контексте бизнеса.

Частые ошибки в A/B-тестировании

Даже опытные маркетологи допускают эти ошибки. Знание подводных камней поможет получить достоверные результаты.

!

Слишком маленькая выборка

Запуск теста на 100-200 посетителях приводит к высокой вариативности результатов. Даже если p-value окажется ниже 0.05, вероятность ложноположительного результата при малой выборке значительно выше заявленной. Всегда рассчитывайте минимальный размер выборки до запуска.

!

Множественные сравнения без коррекции

Тестирование 10 вариантов одновременно с alpha = 0.05 даёт вероятность хотя бы одного ложноположительного результата около 40%. Для множественных сравнений используйте поправку Бонферрони или контролируйте FDR (False Discovery Rate).

!

Игнорирование эффекта новизны

Новый дизайн может привлечь внимание постоянных пользователей просто из-за новизны, а не из-за реального улучшения. Этот эффект исчезает через 2-4 недели. Учитывайте это при интерпретации результатов краткосрочных тестов.

!

Неправильная метрика успеха

Оптимизация клика по кнопке не гарантирует рост выручки. Выбирайте метрику, максимально близкую к бизнес-результату. Идеально — отслеживать воронку целиком: от клика до оплаты, чтобы убедиться, что улучшение на одном этапе не ухудшает другой.

Как пользоваться калькулятором

Два режима для полного цикла эксперимента: планирование и анализ результатов.

1

Укажите текущий CR

Введите текущую конверсию (baseline). Если не знаете точно — используйте данные из Яндекс Метрики или Google Analytics за последние 30 дней.

2

Задайте MDE

Минимальный эффект, который важен для бизнеса. Обычно 10-30% от текущей конверсии. Чем меньше MDE, тем больше нужна выборка.

3

Выберите параметры

Уровень значимости (95% стандарт), мощность (80% минимум), тип теста. Для большинства задач подходят значения по умолчанию.

4

Проанализируйте результаты

После набора выборки переключитесь на вкладку анализа. Введите данные обоих вариантов и получите вердикт с рекомендацией.

Часто задаваемые вопросы

Размер выборки зависит от четырёх параметров: текущей конверсии, желаемого минимального эффекта (MDE), уровня значимости и мощности теста. Для типичного теста (CR = 5%, MDE = 20%, alpha = 0.05, power = 80%) нужно около 4 000 посетителей на вариант. Используйте наш калькулятор для точного расчёта под ваши параметры.
P-value — это вероятность увидеть наблюдаемую (или более сильную) разницу при условии, что реальной разницы нет. Если p-value < 0.05, результат считается статистически значимым. Важно: p-value не показывает вероятность того, что гипотеза верна. Это вероятность данных при условии нулевой гипотезы.
Двусторонний тест проверяет, есть ли разница в любом направлении (лучше или хуже). Односторонний — только в одном (например, только «лучше»). Односторонний тест требует меньше данных, но пропускает ухудшение. Рекомендация: используйте двусторонний тест по умолчанию — он безопаснее.
Минимум 7 дней для учёта недельных циклов поведения. Оптимально — 14-28 дней. Длительность зависит от трафика и необходимого размера выборки. Введите дневной трафик в калькулятор — он рассчитает количество дней автоматически. Тесты дольше 4 недель рискуют быть загрязнены внешними факторами.
MDE — это наименьшее изменение конверсии, которое вы хотите обнаружить. Задаётся в относительных процентах. MDE 20% при базовом CR 5% означает, что вы ищете рост до 6% (абсолютное изменение 1 п.п.). Выбирайте MDE, исходя из бизнес-значимости: какой прирост конверсии окупит затраты на внедрение?
Мощность — это вероятность обнаружить реальный эффект, если он существует. При мощности 80% вы обнаружите эффект в 4 из 5 случаев. 20% — вероятность пропустить реальное улучшение (ошибка II рода). Для важных решений увеличьте мощность до 90-95%, но это потребует большей выборки.
Крайне не рекомендуется. Это называется «peeking» — при многократной проверке значимости реальный уровень ошибки значительно превышает заявленные 5%. Определите размер выборки заранее и проводите анализ только после его набора. Для последовательного анализа существуют специальные методы (SPRT, always valid p-values).
95% (alpha = 0.05) — отраслевой стандарт, подходящий для большинства тестов. 90% — допустимо для предварительных тестов и итераций. 99% — для критически важных изменений (платёжная страница, core-функционал). Чем выше уровень, тем больше выборка. Для типичных маркетинговых тестов 95% — оптимальный баланс.
Варианты: 1) Продолжить тест для набора большей выборки. 2) Принять, что разница мала, и оставить текущий вариант. 3) Пересмотреть гипотезу и протестировать более радикальное изменение. «Не значимо» не означает «варианты одинаковы» — возможно, эффект есть, но тест не имел достаточной мощности для его обнаружения.
Калькулятор использует Z-тест для сравнения двух пропорций (конверсий) с pooled standard error. Это стандартный метод для A/B-тестов с бинарной метрикой (конверсия / не конверсия). Для расчёта выборки применяется формула, учитывающая базовый CR, MDE, уровень значимости и мощность. Метод подходит при n > 30 и np > 5.
Лиана Арифметова
Создатель

Лиана Арифметова

Миссия: Демократизировать сложные расчеты. Превратить страх перед числами в ясность и контроль. Девиз: «Любая повторяющаяся задача заслуживает своего калькулятора».

⚖️

Отказ от ответственности

Только для информационных целей. Все расчёты, результаты и данные, предоставляемые данным инструментом, носят исключительно ознакомительный и справочный характер. Они не являются профессиональной консультацией — медицинской, юридической, финансовой, инженерной или иной.

Точность результатов. Калькулятор основан на общепринятых формулах и методиках, однако фактические результаты могут отличаться в зависимости от индивидуальных условий, исходных данных и применяемых стандартов. Мы не гарантируем полноту, точность или актуальность приведённых расчётов.

Медицинские, финансовые и профессиональные решения должны приниматься исключительно на основании консультации с квалифицированными специалистами — врачом, финансовым советником, инженером или другим профессионалом в соответствующей области. Не используйте результаты данного инструмента как единственное основание для принятия важных решений.

Ограничение ответственности. Авторы и разработчики сервиса не несут никакой ответственности за прямой или косвенный ущерб, возникший в результате использования данных расчётов. Пользователь принимает на себя всю ответственность за интерпретацию и применение полученных результатов.

Похожие инструменты

🏗️

Калькулятор фанеры

Расчёт количества листов фанеры для пола, стен и потолка. ФК, ФСФ, ФБС. С учётом отходов. ГОСТ 3916.1-2018.

🏠

Калькулятор учебного плана

Расчёт учебной нагрузки: часы, зачётные единицы ECTS, распределение по семестрам.

🏠

Калькулятор вышивки крестиком

Расчёт расхода ниток мулине, канвы Aida. Время выполнения и стоимость материалов.

🏥

Конвертер диоптрий ↔ фокусное расстояние

Перевод оптической силы (диоптрии) в фокусное расстояние и обратно. Онлайн калькулятор для физики и оптики.

🧮

Калькулятор доходности аренды

Чистая и валовая доходность аренды, окупаемость, ROI, Cap Rate, Cash-on-Cash. Для инвесторов.

🏭

Калькулятор портовых операций: стоянка, демередж, погрузка

Расчёт стоимости портовых операций: погрузка-разгрузка, демередж/диспач, время стоянки судна, загрузка причала и складские операции.

💻

Конвертер цветовых пространств

Конвертация цветов между CMYK, RGB, HEX, HSL, HSV с визуальным предпросмотром. Цветовые гармонии и контрастность WCAG.

💰

Калькулятор пособия по уходу за ребёнком до 1.5 лет

Расчёт пособия по уходу за ребёнком: 40% от среднего заработка, минимум и максимум.

🏠

Калькулятор утилизационного сбора

Расчёт утилизационного сбора на автомобиль. Базовые ставки, коэффициенты по объёму двигателя и возрасту ТС. ФЗ-89, ПП 1291.

🌿

Калькулятор петрологии

Классификация горных пород по TAS и AFM, нормативный состав CIPW, магнезиальность Mg#, геотермический градиент, литостатическое давление.

🏠

Калькулятор рамки для фото

Расчёт размера паспарту, багета и стекла для оформления фотографий и картин.

🏗️

Калькулятор рекуператора

Расчёт теплопотерь, экономии тепла и срока окупаемости рекуператора воздуха.

⚙️

Калькулятор водоподготовки: коагуляция, хлорирование, фильтрация и осмос

Расчёты водоподготовки: доза коагулянта, хлорирование, скорость фильтрации, умягчение, обратный осмос, индексы Ланжелье и Ризнера.

🧮

Калькулятор площади ожога (правило девяток)

Расчёт площади ожога по правилу Уоллеса и Ланду-Браудеру. TBSA %, формула Паркленда для инфузионной терапии.

🧮

Калькулятор рациона для птицы

Расчёт рациона кормления для кур-несушек, бройлеров, уток, гусей. Суточный расход, состав кормосмеси, стоимость.