12 ошибок A / B-тестирования, которые я вижу постоянно

Опубликовано: 2021-07-22

A / B-тестирование - это весело. Благодаря такому количеству простых в использовании инструментов каждый может и должен это делать. Однако это не просто настройка теста. Тонны компаний зря тратят время и деньги.

Вот 12 ошибок A / B-тестов, которые люди совершают снова и снова.

  1. Ранний вызов A / B-тестов;
  2. Не проводить тесты в течение полных недель;
  3. Проведение A / B-тестов без достаточного трафика (или конверсий);
  4. Не основывать тесты на гипотезе;
  5. Не отправлять тестовые данные в Google Analytics;
  6. Тратить время и трафик на тупые тесты;
  7. Сдача после неудачного первого теста;
  8. Непонимание ложных срабатываний;
  9. Одновременное выполнение нескольких тестов на перекрывающийся трафик;
  10. Игнорирование небольших достижений;
  11. Не запускать тесты все время;
  12. Незнание об угрозах действительности.

Виновны ли вы в этих ошибках? Читай дальше что бы узнать.

1. Ранний вызов A / B-тестов

Статистическая значимость - лучшее доказательство того, что версия A на самом деле лучше, чем версия B, если размер выборки достаточно велик. Пятьдесят процентов статистической значимости - это подбрасывание монеты. Если вы называете тесты на 50%, вам следует сменить профессию. И нет, статистической достоверности 75% тоже недостаточно.

Любой опытный тестировщик имел много опыта, когда «выигрышный» вариант с уверенностью 80% в конечном итоге сильно проигрывает после того, как его направили на сайт вживую и подвергли большему трафику.

А как насчет 90%? Это неплохо, правда? Неа. Не достаточно хорошо. Вы проводите научный эксперимент. Да, вы хотите, чтобы это было правдой. Вы хотите, чтобы эти 90% выиграли, но узнать правду важнее, чем объявить победителя.

Правда> «победа»

Ваша задача как оптимизатора - выяснить правду. Вы должны отбросить свое эго. Человеку свойственно привязываться к своей гипотезе или дизайну лечения, и это может повредить, когда ваши лучшие гипотезы не будут существенно отличаться. Был там, сделал это. Истина превыше всего, или все это теряет смысл.

Планирование A / B-тестирования: как построить работающий процесс

Автор: Яан Матти-Саул

Хороший план A / B-тестирования позволит вам увеличить доход и получить ценную информацию о ваших клиентах.

  • Это поле предназначено для проверки, и его следует оставить без изменений.

Вот распространенный сценарий, даже для компаний, которые много тестируют: они запускают один тест за другим в течение 12 месяцев, объявляют группу победителей и развертывают их. Год спустя конверсия их сайта такая же, как и при запуске. Бывает постоянно.

Почему? Потому что тесты вызываются слишком рано и / или размеры выборки слишком малы. Вот более подробное объяснение того, когда следует останавливать A / B-тест, но в двух словах вам нужно соответствовать трем критериям, прежде чем вы сможете объявить тест выполненным:

  1. Достаточный размер выборки. У нас достаточно данных, чтобы позвонить. Вам необходимо предварительно рассчитать размер выборки с помощью калькулятора размера выборки A / B-теста.
  2. Множественные циклы продаж ( 2-4 недели). Если вы остановите тест в течение нескольких дней (даже после достижения требуемого размера выборки), вы берете удобную , а не репрезентативную выборку.
  3. Статистическая значимость не менее 95% (p-значение 0,05 или меньше) . Примечание: p-значение не говорит нам о вероятности того, что B лучше, чем A. Узнайте все о p-значениях здесь.

Вот старый пример, чтобы проиллюстрировать мою точку зрения. Через два дня после начала теста были получены следующие результаты:

вариация плохо работает при очень маленьком размере выборки.

Вариант, который я построил, сильно проиграл - более чем на 89% (без перекрытия в пределах погрешности). Некоторые инструменты уже называют это и говорят, что статистическая значимость составляет 100%. Программное обеспечение, которое я использовал, показало, что Вариант 1 имеет 0% шанс превзойти контроль. Мой клиент был готов объявить, что все уходит.

Однако, поскольку размер выборки был слишком мал (чуть более 100 посещений на вариант), я настаивал. Вот как выглядели результаты 10 дней спустя:

Вариант теста становится победителем после достижения размера выборки.

Правильно, вариант, который имел «0%» шанс превзойти контроль, теперь выигрывал с 95% уверенностью.

Не упустите инструменты A / B-тестирования, которые «называют это заранее». Всегда проверяйте числа дважды. Худшее, что вы можете сделать, - это быть уверенным в неточных данных. Вы потеряете деньги и можете потратить месяцы работы.

Насколько большой размер выборки вам нужен?

Вы не хотите делать выводы на основе небольшого размера выборки. Хороший ориентировочный показатель - стремиться к как минимум 350–400 конверсиям за один вариант .

В определенных обстоятельствах он может быть меньше - например, когда расхождение между контролем и лечением очень велико, - но магических чисел не существует. Не зацикливайтесь на цифре. Это наука, а не магия.

Вы должны заранее рассчитать необходимый размер выборки, используя подобные калькуляторы размера выборки.

Что, если уверенность все еще ниже 95%?

Как только вы наберете необходимый размер выборки и протестируете полный бизнес-цикл (или два), это будет означать, что между вариантами нет значительной разницы.

Проверьте результаты тестирования по сегментам, чтобы узнать, была ли достигнута значимость в конкретном сегменте. Отличные идеи заключаются в сегментах, но вам также потребуется достаточный размер выборки для каждого сегмента.

В любом случае вам нужно улучшить свою гипотезу и запустить новый тест.

2. Не проводить тесты в течение полных недель.

Допустим, у вас сайт с высокой посещаемостью. Вы получаете 98% уверенности и 350 конверсий на вариант за три дня. Тест сделан? Неа.

Нам нужно исключить сезонность и протестировать полные недели. Вы начали тест в понедельник? Тогда вам нужно закончить его и в понедельник. Почему? Потому что ваш коэффициент конверсии может сильно варьироваться в зависимости от дня недели.

Если вы не тестируете целую неделю, вы искажаете свои результаты. Создайте на своем сайте отчет «Конверсии в день недели», чтобы увидеть, насколько сильно он колеблется.

Вот пример:

пример конверсии по дням недели.

Что ты здесь видишь? Четверг приносит в 2 раза больше денег, чем суббота и воскресенье, а коэффициент конверсии по четвергам почти в 2 раза выше, чем в субботу.

Если бы мы не тестировали полные недели, результаты были бы неточными. Вы должны запускать тесты в течение семи дней за раз. Если уверенность не достигается в течение первых семи дней, запустите еще семь дней. Если это не достигается за 14 дней, запустите его до 21 дня.

Конечно, вам в любом случае нужно запускать тесты как минимум две недели. (Мой личный минимум - четыре недели, поскольку две недели часто неточно.) Затем примените правило семи дней, если вам нужно его продлить.

Единственный раз, когда вы можете нарушить это правило, - это когда ваши исторические данные с уверенностью говорят, что коэффициент конверсии один и тот же каждый день. Но даже в этом случае лучше проводить тестирование по одной полной неделе.

Обратите внимание на внешние факторы

Рождество? Ваш победный тест во время праздников может не стать победителем в январе. Если у вас есть тесты, которые выигрывают в сезон покупок, например на Рождество, вы определенно захотите провести повторные тесты после окончания сезона покупок.

Вы много занимаетесь рекламой на телевидении или проводите другие масштабные кампании? Это тоже может исказить ваши результаты. Вы должны знать, чем занимается ваша компания. Внешние факторы определенно влияют на результаты ваших тестов. В случае сомнений проведите повторный тест.

3. Проведение A / B-тестов без достаточного трафика (или конверсий).

Если вы получите одну или две продажи в месяц и проведете тест, в котором B конвертирует на 15% лучше, чем A, как вы узнаете? Ничего не меняется!

Я люблю сплит-тестирование A / B так же, как и другие, но это не то, что вы должны использовать для оптимизации конверсии, если у вас очень мало трафика. Причина в том, что даже если версия B намного лучше, для достижения статистической значимости могут потребоваться месяцы.

Если ваш тест длился 5 месяцев и не был победителем, вы потратили много денег. Вместо этого вам следует пойти на массовые, радикальные изменения. Просто переключитесь на Б. Никакого тестирования, просто переключитесь - и наблюдайте за своим банковским счетом.

Идея здесь в том, что вы собираетесь делать массивные подъемы, например, 50% или 100%. Вы должны сразу заметить такое влияние на свой банковский счет (или на количество потенциальных клиентов). Время - деньги. Не тратьте зря, ожидая результатов теста, на который уйдут месяцы.

4. Не основывать тесты на гипотезе

Я люблю спагетти. Но тестирование спагетти - бросить его об стену, чтобы проверить, не прилипнет ли? Не так много. Тестирование случайных идей требует огромных затрат. Вы тратите драгоценное время и трафик. Никогда не делай этого. У вас должна быть гипотеза. Что за гипотеза?

Гипотеза - это предложенное утверждение, сделанное на основе ограниченных доказательств, которые можно доказать или опровергнуть, и которое используется в качестве отправной точки для дальнейшего исследования.

Это также не должно быть «гипотезой спагетти» (т. Е. Составлением случайного утверждения). Вам нужно тщательное исследование конверсии, чтобы выяснить, в чем заключаются проблемы, а затем выдвинуть гипотезу, чтобы их преодолеть.

Если вы протестируете A против B без четкой гипотезы, и B выиграет на 15%, это хорошо, но что вы узнали ? Ничего такого. Мы хотим узнать о нашей аудитории. Это помогает нам улучшить нашу теорию о клиентах и ​​предложить еще лучшие тесты.

5. Не отправлять тестовые данные в Google Analytics.

Средние врут. Всегда помни об этом. Если A превосходит B на 10%, это не полная картина. Вам необходимо сегментировать тестовые данные. Многие инструменты тестирования имеют встроенную сегментацию результатов, но она по-прежнему не соответствует тому, что вы можете делать в Google Analytics.

С помощью специальных параметров или событий вы можете отправлять свои тестовые данные в Google Analytics и сегментировать их по своему усмотрению. На нем можно запускать расширенные сегменты и специальные отчеты. Это очень полезно, и именно так вы на самом деле учитесь на A / B-тестах (включая тесты на проигрыш и отсутствие разницы).

Итог: всегда отправляйте свои тестовые данные в Google Analytics. И отделите дерьмо от результатов. Вот пост о том, как это сделать.

6. Тратить время и трафик на глупые тесты.

Так ты тестируешь цвета, а? Стоп.

Нет лучшего цвета. Это всегда визуальная иерархия. Конечно, вы можете найти в Интернете тесты, в которых кто-то обнаружил выигрыш с помощью тестирования цветов, но все они легкие. Не тратьте время на простое тестирование; просто реализуй.

У вас недостаточно трафика, чтобы все протестировать . Никто не делает. Используйте свой трафик на важных вещах. Проверяйте гипотезы, основанные на данных.

7. Сдача после неудачного первого теста.

Вы устроили тест, и он не дал подъема. Ну что ж. Попробуем запустить тесты на другой странице?

Не так быстро! Большинство первых тестов терпят неудачу. Это правда. Я знаю, что вы нетерпеливы, и я тоже, но правда в том, что итеративное тестирование - вот где это. Вы проводите тест, учитесь на нем и улучшаете свою теорию и гипотезы о клиентах. Проведите дополнительный тест, извлеките уроки из него и улучшите свои гипотезы. Проведите дополнительный тест и так далее.

Вот пример из практики, в котором потребовалось шесть тестов (на одной странице), чтобы добиться результата, которым мы остались довольны. Вот на что похоже тестирование в реальной жизни. Это должны знать люди, утверждающие бюджеты тестирования - ваши начальники, ваши клиенты.

Если ожидание таково, что первое испытание выбьет его из толку, деньги будут потрачены зря, и людей уволят. Так не должно быть. Вместо этого это может быть много денег для всех. Просто запустите итерационные тесты. Вот где деньги.

8. Непонимание ложных срабатываний.

Статистическая значимость - не единственное, на что следует обращать внимание. Вы также должны понимать ложные срабатывания. Нетерпеливые тестировщики хотят пропустить A / B-тестирование и перейти к A / B / C / D / E / F / G / H-тестированию. Ага, теперь мы разговариваем!

Зачем останавливаться на достигнутом? Google протестировал 41 оттенок синего! Но это плохая идея. Чем больше вариантов вы протестируете, тем выше вероятность ложного срабатывания. В случае 41 оттенка синего даже при уровне достоверности 95% вероятность ложного срабатывания составляет 88%.

Посмотри это видео. Вы узнаете кое-что:

Главный вывод: не тестируйте слишком много вариантов одновременно. В любом случае лучше провести простое A / B-тестирование. Вы быстрее получите результаты и научитесь быстрее - быстрее улучшите свою гипотезу.

9. Одновременное выполнение нескольких тестов на перекрывающемся трафике.

Вы нашли способ срезать углы, запустив одновременно несколько тестов: один на странице продукта, один на странице корзины, один на домашней странице (при измерении одной и той же цели). Это экономит время, правда?

Это может исказить результаты, если вы не будете осторожны. Вероятно, это нормально, если:

  • Вы подозреваете сильное взаимодействие между тестами.
  • Между тестами наблюдается большое перекрытие трафика.

Ситуация усложняется, если взаимодействия и трафик могут совпадать.

Если вы хотите протестировать новую версию нескольких макетов одновременно в одном потоке - например, запустить тесты на всех трех этапах оформления заказа - вам может быть лучше использовать многостраничные эксперименты или многовариантное тестирование для измерения взаимодействий и правильной атрибуции результатов. .

Если вы решили провести A / B-тесты с перекрывающимся трафиком, имейте в виду, что трафик всегда следует распределять поровну. Если вы тестируете страницу продукта A и страницу B, а страницу оформления заказа C. и D, убедитесь, что трафик из B распределяется 50/50 между C и D (а не, скажем, 25/75).

10. Игнорирование небольших достижений

Ваше лечение превзошло контроль на 4%. «Бхх, это слишком маленькая выгода! Я даже не буду утруждать себя его реализацией », - слышал я от людей.

Вот в чем дело. Если ваш сайт достаточно хорош, вы не будете постоянно получать массовый рост. На самом деле массивные лифты очень редки. Если ваш сайт дерьмовый, легко запускать тесты, которые все время дают прирост на 50%. Но даже это закончится.

Большинство успешных тестов дадут небольшой выигрыш - 1%, 5%, 8%. Иногда рост на 1% может означать миллионы доходов. Все зависит от абсолютных чисел, с которыми мы имеем дело. Но суть в следующем: нужно смотреть на это с 12-месячной перспективы.

Один тест - это всего лишь один тест. Вы собираетесь провести много-много тестов. Если вы увеличиваете коэффициент конверсии на 5% каждый месяц, это будет на 80% больше за 12 месяцев. Это увеличение процентов. Так работает математика. Восемьдесят процентов - это много.

Так что продолжайте получать эти маленькие победы. В конце концов, все сложится.

11. Непрерывное выполнение тестов.

Каждый день без теста - потраченный впустую день. Тестирование - это обучение - изучение своей аудитории, изучение того, что работает и почему. Все полученные знания можно использовать в маркетинге (например, в рекламе с оплатой за клик).

Вы не знаете, что работает, пока не протестируете. Тесты требуют времени и трафика (его много). Наличие и выполнение одного теста на постоянной основе не означает, что вы должны проводить тесты на мусор. Точно нет. Вам по-прежнему нужны правильные исследования, хорошая гипотеза и так далее.

Но никогда не прекращайте оптимизацию.

12. Незнание об угрозах действительности

Тот факт, что у вас есть приличный размер выборки, уровень достоверности и продолжительность теста, не означает, что результаты вашего теста были действительными. Есть несколько угроз для достоверности вашего теста.

Инструментальный эффект

Это самая частая проблема. Это когда инструменты (или инструменты) тестирования приводят к ошибочным данным в тесте. Часто это происходит из-за неправильной реализации кода на сайте, что исказит все результаты.

Тебе действительно нужно за этим следить. Когда вы настраиваете тест, наблюдайте за каждой записываемой целью и метрикой. Если метрика не отправляет данные (например, данные о кликах «добавить в корзину»), остановите тест, найдите и устраните проблему и начните заново, сбросив данные.

Эффект истории

Что-то происходит во внешнем мире, что приводит к некорректным данным в тесте. Это может быть скандал вокруг вашего бизнеса или одного из его руководителей. Это может быть особый праздничный сезон (Рождество, День матери и т. Д.). Может быть, история в СМИ склоняет людей против вариации вашего теста. Что бы ни. Обратите внимание на то, что происходит в мире.

Эффект выделения

Это происходит, когда мы ошибочно предполагаем, что некоторая часть трафика представляет собой весь трафик.

Например, вы отправляете рекламный трафик из своего списка рассылки на страницу, на которой запускаете тест. Людям, подписавшимся на ваш список, вы нравитесь больше, чем обычным посетителям. Но теперь вы оптимизируете страницу для работы со своим лояльным трафиком, думая, что они представляют собой общий трафик. Так бывает редко!

Эффект неработающего кода

Вы создаете лечение и продвигаете его вживую. Однако это не выигрывает и не дает никаких результатов. Вы не знаете, что ваше лечение плохо отображалось в некоторых браузерах и / или на некоторых устройствах.

Каждый раз, когда вы создаете новый или два лечения, обязательно проводите тестирование качества, чтобы убедиться, что они правильно отображаются во всех браузерах и на всех устройствах. В противном случае вы оцениваете свой вариант на основе ошибочных данных.

Заключение

Доступно так много отличных инструментов, которые упрощают тестирование, но они не думают за вас. Возможно, в колледже статистика не была вашим любимым предметом, но пора освежить свои знания.

Учитесь на этих 12 ошибках. Если вы сможете их избежать, вы начнете добиваться реального прогресса в тестировании.

Кредит избранного изображения