Как правильно тестировать гипотезы и не только
Сожгите свою аналитикуКаждый день я читаю статьи о продвижении в интернете, маркетинговых акциях, A/B-тестированию и другим подобным штукам. И регулярно замечаю, что авторы совершенно не берут в расчёт дисперсию, которая может полностью разрушить логику исследования и даже выдать результаты, прямо противоположные тому, что получилось у авторов.
Каждый день я читаю статьи о продвижении в интернете, маркетинговых акциях, A/B-тестированию и другим подобным штукам. И регулярно замечаю, что авторы совершенно не берут в расчёт один показатель — дисперсию, — который может полностью разрушить логику исследования и даже выдать результаты, прямо противоположные тому, что получилось у авторов.
Дисперсия — это мера разброса случайной величины вокруг математического ожидания. Проще говоря, когда мы подбрасываем монетку, мы знаем, что получим «орла» или «решку» в каждом отдельном испытании с вероятностью в 50%. С другой стороны, при серии в сотню подбрасываний мы вряд ли получим 50 раз «орла» и 50 раз «решку». Результат каждый раз будет находиться где-то около ожидаемого значения, но будет отличаться. Величина этого разброса и определяется дисперсией.
Вы сами можете это проверить. Наш результат: 54/46 в пользу «орла».
Все гипотезы лгут
С монеткой всё интуитивно понятно. Но когда речь заходит о бизнесе, всё становится сложнее. Представьте предпринимателя, который рекламирует в Google свой интернет-магазин. Один клик на объявление стоит $1,5, а прибыль от каждой продажи составляет $150. После 500 показов — две продажи. Реклама вырубается как неэффективная. Запускается другое объявление. После 500 показов — пять броней. Вывод: эта кампания в два с половиной раза эффективнее. Зальём туда денег побольше.
Ещё тысяча показов — и всего четыре брони. Конверсия внезапно упала до уровня прошлой кампании. Почему? Предприниматель принял решение об эффективности рекламы на основе слишком малой выборки. И дисперсия его обманула.
Вот уже реальный пример из нашего бизнеса. Наши партнёры в США рекламируют в Google свои квесты. Цена клика — $0,3. Средняя продажа приносит $25. Конверсия сайта из посетителя в покупателя — около 3%. Мы покупаем трафик в 100 человек и ведём их на сайт. Как будут выглядеть наши конкретные прибыли или убытки?
Разброс случайной величины при 100 посетителях превращает результат то в $150, то в $20. Разница больше, чем в семь раз. Всё дело в слишком маленькой выборке. На сто испытаний влияние дисперсии столь велико, что мы получаем катастрофически разные результаты.
Когда мы провели тысячу испытаний, лучший и худший результаты отличались уже всего вдвое. На дистанции в 10 000 испытаний разброс составил 10%. Идеальное совпадение произошло бы при 100 000 испытаний.
Как пользоваться дисперсией
Когда вы оцениваете результат процесса с низкой вероятностью успеха — например, изменение дизайна на сайте с конверсией 3%, — необходимо провести много испытаний, чтобы доверять результату. Оценивать эффективность изменений на выборке в 1000 посетителей — значит изучать белый шум.
Это правило работает и вне интернета. Если вы раздаёте флаеры или клеите афиши, их надо раздавать и клеить очень много. Конверсия у флаера обычно куда меньше 3%, так что количество в 10 000 — 30 000 штук — минимальный порог, при котором можно оценить эффективность канала. Всё остальное — случайность.
Теперь приведу обратный пример из моего бизнеса. В одном американском филиале мы раздавали флаеры с приглашением на квесты туристам в ресторанах. Довольно долго нам звонили и заходили на сайт по специальной ссылке с флаера, но не бронировали. Другой на моём месте свернул бы акцию, но я точно знал, что она уже сработала в похожих городах на похожих условиях. Я настоял на её продолжении и усилении. Через некоторое время конверсия вышла на приемлемый уровень и затраты окупились.
В данном случае я опирался на уже существующий опыт. Можно сказать, знал матожидание для данного процесса в долгосрочном периоде, поэтому неудача на коротком отрезке меня не смутила.
Последнее, что нужно понять про дисперсию: чем выше вероятность наступления нужного вам результата, тем меньшая выборка нужна. Например, если вы тестируете на сайте кнопки двух цветов и одна даёт конверсию на 40% больше, выборки в 10 000 испытаний будет достаточно.
Фотография на обложке: Stokkete / Shutterstock