Как правильно (и как неправильно) A/B-тестировать email-рассылки | Глава 10 - Продуктовый дизайн (UX/UI), брендинг и аналитика

(Перед вами перевод бесплатного курса «CRO and Growth Marketing Course» от Dynamic Yield. Если вы здесь впервые, то лучше начните сначала)

Автор английской версии: Янив Навот, CMO, Dynamic Yield

Остановите меня, если эта песня вам знакома:

“Чтобы выжимать максимум из рассылок, нужно проводить A/B-тесты. Достаточно немного поиграть с темами, лейаутами и текстами рассылок, и они начнут приносить невероятные результаты…”

Примерно так продвигают свои решения провайдеры программ для email-маркетинга (email service providers, ESPs) и маркетинговой автоматизации. Так они мягко готовят почву, чтобы продать вам дополнительный модуль для проведения A/B тестов.

К сожалению, у меня для вас плохие новости: большинство программ для A/B-тестирования рассылок искажают результаты A/B тестов и отправляют вас по ложному пути.

Скорее всего, ваш провайдер софта для email-маркетинга хотя бы раз пытался продать вам идею A/B-тестирования с помощью их замечательных инструментов. Скорее всего, вы даже воспользовались этими инструментами и впечатлились их возможностями. Вот только вы вряд ли заглядывали к ним “под капот”, потому что под капотом у них — слабая статистическая методология, плюс маломощный софт; а на выходе — искаженные результаты.

Как ваша программа для email-маркетинга вас обманывает

Большинство маркетологов клюют на приманку "провести тест сначала на небольшом сегменте вашего списка рассылки". Тест будет крутиться, пока один из двух вариантов не наберет большинство “голосов” — к примеру, открытий (open rate). Этот вариант будет объявлен победителем A/B теста и система автоматически разошлет его всем остальным вашим подписчикам. Звучит очень просто, но с точки зрения статистики это ужасная идея.

Быстрый ликбез о статистической значимости (statistical significance)

Главный изъян вышеописанной схемы — недостаток статистической значимости. “Статистического чего?” — спросите вы.

Говоря простым языком, статистическая значимость (statistical significance) — это вероятность того, что эксперимент не является случайным, бессмысленным или ошибочным. Чтобы получить приемлемый уровень статистической значимости, нужно располагать достаточно большими объемами данных; причем обычно чем меньше измеряемый эффект — тем больший объем данных требуется.

Статистическая значимость измеряется как процент достоверности эксперимента и характеризуется величиной p-value. Допустим, вы хотите быть на 95% уверены, что некое изменение в рассылке даст положительный эффект. Тогда вам нужно, чтобы результаты тестов показывали уровень достоверности (confidence level) 95% или p-value 5%. Давайте рассмотрим на примере. Скажем, у вас есть сегмент численностью 4,000 пользователей и вы решаете протестировать на нем две темы:

[Распродажа] Все товары со скидкой 50%

или

Распродажа: Все товары со скидкой 50%

Письмо с первой темой открыли 265 человек, а со второй — 250 человек. То есть открываемость (open rate) составила 13,25% и 12,5% соответственно.

Получается, первый вариант победил? Если верить большинству программ для email-маркетинга, то да, победил, и его следует автоматически разослать всем вашим подписчикам.

НО! если прогнать эти цифры через любой калькулятор статистической значимости (statistical significance calculator), вы увидите, что можно быть лишь на 76% уверенным, что А даст лучшие результаты относительно Б. А p-value составляет катастрофические 24%.

Другими словами, если вы автоматически назначите “победителем” А и отправите эту версию письма всем оставшимся подписчикам, с вероятностью 1 к 4 это может негативно сказаться на отклике (response rate).

В этом и кроется главная опасность A/B-тестирования через эти программы — они не учитывают статистическую значимость. Какой вариант больше открыли — тот и победитель, рассылаем по всей базе. Если провести более точный тест, может оказаться, что на деле рассылка-победитель работает хуже — но вы этого никогда не узнаете, ведь более точные тесты эти системы проводить не умеют.

Таким образом, у вас на руках может оказаться программа, которая сама провоцирует и оправдывает принятие плохих решений. Может показаться странным, что программы для email-маркетинга и маркетинговой автоматизации активно продвигают такие вот ущербные инструменты тестирования. Дело в том, что большинство вендоров в этой области вообще не заинтересованы в том, чтобы предлагать клиентам лучшие инструменты для тестирования рассылок. Как правило, у их клиентов очень маленькие базы рассылок. Но они слышали, что email-маркетинг — штука важная, поэтому они легкая добыча для допродажи инструмента тестирования рассылок.

Короче, эти компании не преследуют цель обеспечить клиентам проверенные статистические доказательства — блин, да я вообще сомневаюсь что их клиенты понимают всю важность статистической значимости.

Правда в том, что большинство пользователей таких инструментов просто хотят получить любой результат — и если программа сказала, что этот “победитель”, а этот — “проигравший”, они считают эти результаты значимыми.

Если программа сказала, что один вариант “победитель”, а другой — “проигравший”, пользователи склонны считать это значимым результатом, потому что на самом деле большинству из них достаточно любого результата.

Подумайте в таком ключе: если маркетолог проводит A/B тест, значит перед ним стоит задача добыть некий инсайт (insight). А инсайт есть в любом результате: как в победном, так и в проигрышном. Если же программа сообщит маркетологу, что результат теста неоднозначен, то через несколько таких неудачных попыток маркетолог вообще перестанет проводить A/B тесты — и, как следствие, перестанет платить вендору за модуль тестирования.

Так что большинство вендоров ПО знают: любой результат лучше, чем никакой (потому что дает ощущение движения вперед). Они играют на том, что большинство маркетологов не сильны в статистике. Что в сухом остатке? Вы ходите в казино, где всегда выигрываете — поэтому раз за разом возвращаетесь.

Теперь другой вопрос. Как выжать из инструмента для A/B-тестирования рассылок реальные результаты?

Правильный подход к A/B-тестированию рассылок

Во-первых, если ваша платформа для email-маркетинга не позволяет измерить статистическую значимость (statistical significance), ОБЯЗАТЕЛЬНО загружайте результаты в какой-нибудь калькулятор статистической значимости.

Далее, софт для email-маркетинга не должен автоматически назначать “победителей” — это нужно делать вручную.

Правда в том, что на деле бывает сложно провести статистически значимый тест, если в вашей базе подписчиков менее 50,000 человек. Плюс, не каждый из подписчиков откроет письмо: обычно открываемость составляет порядка 10%. Таким образом, вы можете рассчитывать где-то на 5,000 откликов (responses). При таком раскладе это будет тест 50/50 — любая разница между вариантами скорее всего будет находиться в пределах погрешности.

Я не говорю, что тем, у кого менее 50,000 адресов, вообще не стоит проводить тесты — просто знайте, что результаты могут не быть статистически значимыми. Чтобы получить значимые результаты, возможно придется провести один тест несколько раз. У этого подхода есть свои недостатки — большинство статистиков сейчас недоверчиво нахмурили брови — но есть способ сделать все правильно.

Повторяющиеся A/B тесты эффективно работают, если вам нужно исследовать какую-то широкую область или тематическую концепцию. Например, вы явно не станете тестировать одни и те же темы (subject lines) снова и снова, но можно при повторном тестировании проверить другие темы, похожие по типу и структуре. К примеру:

Как emoji в теме письма влияют на открываемость рассылок?
Как скобки вокруг слов [Распродажа] или [Скидка!] влияют на открываемость рассылок?
Открываемость будет выше, если некоторые слова ВЫДЕЛИТЬ большими буквами?
Насколько эффективно работает обращение по имени?

Некоторые общие принципы легко тестировать в рамках разных тестов — и результаты должны быть достаточно корректными. Такое объединение результатов позволяет выявлять более и менее удачные подходы к email-маркетингу даже при небольшой базе подписчиков.

Еще момент: вы можете A/B-тестировать любые элементы рассылок, но я предлагаю сконцентрироваться на теме. Это самый верный способ быстро добыть значимые результаты — особенно если у вас в базе мало адресов. Потому что если показатели открываемости могут быть порядка 20%, среднестатистический CTR (click-through rate, коэффициент кликабельности) обычно колеблется в районе 2,5%. С таким маленьким размером выборки добиться статистической значимости еще сложнее.

В том же духе многие компании пытаются тестировать продающие письма. Такое тестирование еще сложнее, а активность пользователей по таким письмам еще ниже. Чтобы получить статистически значимые результаты, понадобится действительно большая база подписчиков.

Вот вам рабочая тактика: сначала сконцентрируйтесь на открываемости (open rate). Только применяйте этот подход осторожно: ту же стратегию часто используют спамеры и всякие мошенники.

Открываемость напрямую влияет на остальные KPI рассылок: чем больше людей откроют ваши письма, тем больше кликов и даже покупок внутри письма вы получите.

По моему опыту, лучше всего работают такие темы, которые возбуждают любопытство, при этом не сбивая с толку. Обычно они звучат довольно туманно…

Например, можно заменить тему: “Быстрый вопрос о мониторинге соц.сетей” на “Быстрый вопрос”.

Некоторые подписчики могут неоднозначно отреагировать на такую тему, кто-то отпишется. Но те, кто все-таки откроет письмо и кого вы ЗАТЕМ убедите кликнуть по рассылке, с лихвой компенсируют ваши потери. Таким образом, оптимизируя тему, вы отправляете все больше и больше людей вниз по воронке.

← Назад | Продолжение (Глава 11) →