A/B-тестирование. Часть 2

Техническое решение

Единственно верного варианта технического решения для проведения А/Б-тестов не существует. У каждого из вариантов есть свои приверженцы, которые замечают недостатки в других методах, подчёркивая достоинства своего способа.

Существует два варианта организации чередования тестовых объявлений: одновременно или по очереди. В первом случае чередование задаётся автоматически в соответствии с внутренними принципами ротации Директа: первому посетителю, набравшему ключевик, будет продемонстрировано первое объявление, второму – второе, третьему – опять первое и т.д. При этом все внешние условия одинаковы: то же количество конкурентов, тот же курс доллара и т.д. Второй вариант чередования позволят нам самим определять, в какой день и час показывать один вариант, а когда – другой. При этом изменяются внешние условия, но по ряду параметров приобретаются преимущества.

Технология тестирования разделяется и по массовости воздействия: вся кампания или отдельная группа объявлений. Тесты для каждого отдельного анонса составлять нет смысла, исключение составит реклама с очень низкими показателями по сравнению с остальными. При этом следует учитывать, что в разные дни недели и в разное время суток люди ведут себя по-разному, что неизменно сказывается на результатах тест. Поэтому сравнивать результаты двух тестов, один из которых был проведён утром, а другой – вечером нецелесообразно.

Для одновременно тестирования нескольких объявлений в Директе предусмотрен специальный инструмент, который так и называется – группы объявлений. Возможности сервиса позволяют создать несколько вариантов объявления для одного ключевика, которые будут демонстрироваться в определённом порядке, а через некоторое время останется только один самый кликабельный вариант. Чтобы была возможность отследить и другие показатели, каждый вариант необходимо предварительно снабдить своей уникальной UTM-меткой. Из недостатков можно отметить медлительность и неравномерность, поскольку разрыв между демонстрацией разных вариантов составляет до нескольких часов или даже дней. Его есть смысл использовать для высокочастотных запросов или при подборе оптимального варианта для рекламных площадок Яндекса. Отобрав эффективный вариант по высокочастотным ключам можно его перенести в качестве образца для низкочастотных запросов.

Одновременный запуск двух компаний аналогичен демонстрации групп объявлений: создают две кампании, отличающиеся только одним параметром, и запускают их в режиме сплит-тестирования. Основываясь на кликабельности каждого из сотен объявлений, Яндекс постепенно автоматически отберёт только самые эффективные варианты. Ко всем недостаткам одновременного тестирования по группам добавляется ещё один: у одной из кампаний будет накопленный CTR, а другая (её копия с изменённым параметром) будет запущена с прогнозным показателем. Это повлияет на позицию показа и количество переходов.

Избежать выше обозначенных недостатков можно при использовании варианта с самостоятельно заданными параметрами чередования. На каждый тест отводится количество дней, кратное семи: по неделе на каждый вариант. Из практики известно, что в один и тот же день недели люди ведут себя подобным образом. Важно только не проводить тесты на стыке сезонов продаж и в праздники. В тестирование включаются все ключевики, даже низкочастотные. Полученные результаты можно будет считать достоверными, если по каждому из вариантов будет получено не меньше 300 переходов.

В техническом плане это осуществить несложно: выписывают результаты предыдущего теста, выгружают кампанию, меняют один элемент, загружают обратно и запускают. Через неделю сравнивают статистику с выписанными цифрами и делают выводы. Новые данные сохраняют и повторяют операцию по выгрузке-коррекции-загрузке.

Крайне не рекомендована короткая длительность теста – «шахматы»: на каждый вариант отводится по часу (с 00-00 до 01-00 первый вариант, с 01-00 до 02-00 – второй, с 02-00 до 03-00 – первый и т.д.). В этом случае на итоговые показатели будут накладываться уже накопленный уровень CTR, а также потребуется каждую кампанию останавливать и запускать по несколько раз за сутки, что приводит к потере кликов во время активизации. Но самый главный недостаток в другом – в разное время конверсия будет отличаться в разы. Так, в 14-00 она составит 0,7%, а через час в 15-00 – уже 2,1%. Это слишком высокая погрешность, чтобы результаты считать достоверными.

На что стоит обратить внимание в А/Б-тестировании

Избежать распространённых в тестировании ошибок позволит следующий перечень:

Заявленные параметры в 300 кликов и недельную продолжительность применимы только к стабильно работающим рекламным кампаниям, показатели которых необходимо просто улучшить. Если же результата ещё нет вообще, то тесты могут быть краткосрочными – длительностью до суток, а количество откликов для анализа можно использовать от 150. Целью здесь будет не улучшение показателей, а их получение. При этом потребуется тщательное изучение всех параметров статистики в Метрике с доскональным изучением поведения пользователей на сайте.
Объектами тестирования могут выступать не только объявления, но и страницы веб-ресурса: заголовок, фон, форма и цвет кнопок, расположение блоков, шрифты, видео и пр.
Предыдущие варианты кампаний следует сохранять в отдельной папке, чтобы в случае необходимости их можно было быстро восстановить.
На первом месте должно быть качество теста. Поскольку нельзя делать выводы после перехода с профессионального многостраничного сайта на наспех выполненный лэндинг, на котором дизайн режет глаза, отсутствует логика в расположении блоков, нет «цепляющего» заголовка и т.д.
Тестирование и выбор объектов должны основываться на аналитике. Чтобы не получалось как в том анекдоте, когда накануне новогоднего застолья мужчина решает прекратить есть мандарины, чтобы точно выяснить, отчего ему так плохо утром первого января. Так и в рекламе – не должно быть случайных изменений, в помощь директологам вебвизор, показатели Метрики, объявления конкурентов и т.д. Какой смысл тестировать порядок преимуществ, если у конкурентов доставка в течение двух часов после заказа, а у тебя на следующий день?

Не меньше ошибок допускают начинающие директологи и рекламодатели, приступая к анализу полученных результатов. Чаще всего отвечают на глаз: «вроде больше заказов стало». Этот подход не позволит выявить слабые и узкие места для повышения эффективности. CTR, конверсию сайта, конверсию отдела продаж, средний чек время на сайте, показатель отказов, глубину просмотра стоит изучить по отдельности и в комплексе. Только в этом случае можно с уверенностью выбрать оптимальный вариант.

15 августа и 2 сентября, 30 декабря и 13 января поведение потребителей будет существенно отличаться. Разными будут их потребности и «боли», так же как и количество денег в кармане. Безусловно, если обращать внимание на все внешние факторы, влияющие на покупательскую способность, то можно так и не дождаться подходящего момента для начала тестов. Однако есть периоды, в которые уж точно затевать эту работу не следует – слишком высока будет погрешность в результатах, что существенно снизить их достоверность. Под запрет попадают стыки сезонов покупательской активности, времён года и государственные праздники. Для отдельных ниш периоды проведения фестивалей, чемпионатов, выборов и пр. также существенно влияют на поведение покупателей, спрос и другие показатели. Так, если на бизнес-тренинге слушатели получат задание настроить рекламную кампанию в Директе, то они создадут всплеск активности в фирмах, агентствах и среди частных директологов. Однако качество заявок при этом будет невысоким, из разряда «5000 объявлений за 500 рублей в течение двух дней».