Создание моделей атрибуции с помощью машинного обучения и Google BigQuery

Материалы для скачивания
1.25 Mb

Чтобы вовремя принять правильное решение и эффективно распределить бюджет на маркетинг, недостаточно данных о доходе по рекламных кампаниям, которые приводят аудиторию на сайт. Нужно учитывать взаимное влияние рекламных каналов друг на друга на всех этапах воронки. И чтобы узнать природу этого взаимного влияния, бизнесы часто применяют в модели атрибуции машинное обучение.

Проблема в том, что для обучения модели недостаточно данных собранных с сайта. Также необходимо учитывать:

Если этого не сделать, то модель атрибуции будет учиться медленнее, чем меняется конъюнктура рынка.

В этой статье мы рассмотрим основные требования к эффективной модели атрибуции. Расскажем, как и зачем применять экспертные знания в атрибуции. И отдельно остановимся на нюансах технической реализации.

бонус для читателей

Как применять машинное обучение в атрибуции

Скачать материал

Содержание

Требования к модели атрибуции

Рассмотрим требования, которые предъявляет бизнес к моделям атрибуции. Обычно формирование этих требований происходит в два этапа.

Этап 1: Маркетологи делятся ожидаемым результатом: «Сейчас у нас есть оценка дохода от рекламных кампаний по модели Last Click, но она нас не устраивает. Мы считаем, что она не учитывает вклад рекламных кампаний, которые по-разному взаимодействовали между собой. Мы хотим получить более объективную и достоверную оценку».

Выслушав это, аналитики говорят: «Хорошо. Дайте нам действия пользователей на сайте — мы их проанализируем и получим доход по рекламным кампаниям». В результате они строят несколько отчетов, например, вот таких круговых диаграмм:

Распределение дохода по группам каналов трафика

Эти диаграммы показывают, как меняется ROAS конкретного канала в результате применения разных моделей атрибуции.

Существует много разных способов рассчитать атрибуцию и каждый из них дает свою оценку. Возникает справедливый вопрос, а какой из способов стоит использовать, чем они отличаются между собой? И ответить на этот вопрос нужно до того, как будет применена атрибуция и вы по ошибке отключите важные каналы.

Этап 2: На втором этапе аналитики говорят бизнесу: «Кажется, одного дохода по рекламным кампаниям вам недостаточно. Потому что увидев его, вы продолжаете задавать нам вопросы о том, как сформирован этот доход. Что же в итоге нужно?».

Тогда маркетологи ответят, что кроме дохода по рекламных кампаниям, они хотели бы понимать как лучше поступить — увеличить рекламный бюджет или нет. В идеале им нужно знать, что получится, если они выполнят рекомендации, которые рассчитала и сформировала модель атрибуции.

И будет еще лучше — получить возможность моделировать marketing mix, покрутить галочки и винтики, которые покажут, что получится, если… Может быть, у них получится увеличить конверсию или надо сделать ставку на новых покупателей?

Очевидно, что на эти вопросы не ответить с помощью одних только данных о действиях пользователей на сайте. И если с этими вопросами прийти к аналитикам, они ответят, что кроме данных сайта им нужна гранулированная информация о расходах на рекламу на уровне сессий.

Также им нужны знания о природе каналов: какие из них являются органическими, какие поддерживающими, какие закрывающими. Кроме того, понадобится информация о емкости каналов, чтобы понять, до какого объема имеет смысл увеличивать инвестиции в канал и не повысить при этом стоимость конверсии.

Также нужно знать тренды рынка, например, как растет доля мобильного трафика, как меняется трафик с регионов. Еще важно понимать активности конкурентов, которые оказывают влияние на конверсии на сайте — когда они запускают акции, в какой мере их рекламные кампании выкупают инвентарь, за который мы с ними конкурируем.

Модель атрибуции OWOX BI создаст воронку, которая учитывает путь пользователя на разных платформах, емкость каналов и тренды рынка. Атрибутирует расход на сессии и пользователя, а также рассчитает объективный вклад ваших рекламных кампании в ROPO-продажи.

Получив всю эту информацию, аналитики смогут ее оцифровать, построить модель и ответить на вопросы о том, что делать, и как моделировать marketing mix.

Очевидно, что бизнесу сложно предоставить аналитикам всю эту информацию. Особенно верхнюю часть воронки, связанную с показами. К примеру, если речь идет о медийной рекламе, то есть средства для сбора этой информации. Если же речь идет о ленте в Facebook или поисковой выдаче в Google и Яндекс, то там уже информация о показах на уровне пользователя технологически недоступна.

Значит, нужно искать другое решение, которое позволит бизнесу использовать технологии машинного обучения.

Data-Driven vs Data-Informed

По сути есть два класса решений. Первый — это Data-Driven. Условно: есть некие данные, мы их получили и к нам сразу пришло решение.

На самом деле, большинство решений, которые принимает маркетинг — это не Data-Driven, а Data-Informed. Отличие в том, что данные не являются самодостаточными для принятия решений. Кроме них, человек, принимающий решение, использует интуицию, предыдущий опыт, оценочные суждения.

Резюмируем — для практического применения модель атрибуции должна:

  1. Поддерживать применение экспертных знаний, так как по определению не может основываться на всех данных, необходимых для оценки ожидаемого результата.
  2. Давать объяснимые результаты.
  3. Предоставлять данные о достоверности расчетов.

Давайте остановимся на самом важном выводе — это использование экспертных знаний в машинном обучении.

Экспертные знания в машинном обучении

1. Выбор конверсионного окна

Самым простым и понятным элементом экспертного знания является выбор конверсионного окна. Это время, в течение которого большинство покупателей делают заказ. После создания модели атрибуции бизнес хотел бы задавать разные конверсионные окна применительно к разным конверсиям или разным группам товаров.

Большое конверсионное окно позволяет учесть больший период и большее число взаимодействий покупателя с рекламными кампаниями. Но в то же время конверсионное окно подразумевает, что в течение этого периода у вас будут меняться результаты расчетов. Например, у вас конверсионное окно больше 4 дней и вы подвели итоги за март 4 апреля. Через несколько дней цифры в отчете могут поменяться, потому что придется учитывать те взаимодействия, которые были еще в марте и не закончились конверсией 4 апреля.

Понятно, что управлять конверсионным окном удобнее без участия разработчиков. OWOX BI предоставляет своим пользователям такую возможность:

Выбор конверсионного окна
Бесплатно попробовать OWOX BI

2. Выбор управляемых каналов

Второй критически важный элемент экспертных знаний — это выбор управляемых каналов. Часто модель атрибуции перераспределяет ценность между каналами таким образом, что у маркетологов остается только один вопрос: «И что нам с этим делать?».

Допустим, вы узнали, что email-канал приносит не Х, а Y конверсий. Но вы мало что с этим сделаете — email работает в других реалиях, отличных от контекстной рекламы. Или например, вы увидели, что брендовая кампания на самом деле приносит больше конверсий, чем по модели атрибуции Last Click. Значит ли это, что вы будете больше инвестировать в брендовые рекламные кампании? Большинство бизнесов скажет: «Нет, мы знаем, что их емкость уже исчерпана».

Мы реализовали выбор управляемых каналов в OWOX BI. Вы можете указывать source и medium для тех типов сессий, вклад которых не хотите учитывать в расчетах атрибуции. Это важный функционал. Если его не использовать, ценность получат те группы источников, которые в реальности являются неуправляемыми.

Выбор управляемых каналов
Бесплатно попробовать OWOX BI

3. Точечной оценки рекламных кампаний недостаточно

Представьте, что вы создали модель атрибуции с учетом и конверсионного окна, и управляемых каналов. В результате вы получили некую рекомендацию о том, как изменить рекламный бюджет:

Рекомендация, как изменить рекламный бюджет

Однако этой оценки не просто недостаточно для принятия решения — ею опасно пользоваться. Давайте разберем, почему.

Рекламные кампании находятся под давлением друг друга и формируют итоговые продажи

Представим продажи в виде шарика, который наполнен взаимным давлением через разные каналы. На рисунке ниже у нас 5 областей — это некий трафик, который под взаимным давлением наполнил аудиторию нашего продукта.

Давайте посмотрим, что будет, если отключить один из каналов. Например, фиолетовый. Мы его убираем из нашего шарика с общим трафиком и видим, что без трафика с одного из каналов продажи уменьшились.

Продажи и каналы трафика

И здесь очень важно задать себе вопрос: «А что мы имеем в виду, когда спрашиваем, какую ценность принес канал? Что именно мы хотим измерить?».

Что измеряет атрибуция

  1. Самый очевидный вариант — мы измеряем вклад канала в общие продажи. Но есть еще и три других вопроса.
  2. Насколько увеличились продажи, благодаря каналу.
  3. Насколько уменьшатся продажи, если отключить канал.
  4. Сколько приносит канал по мнению самого канала.
Что измеряет атрибуция

Важно, что ответом на все четыре вопроса будут разные показатели. Поэтому нам недостаточно одного числа, чтобы понять, куда идти и что делать.

Этот мир объемный, а не плоский

Воронка продаж

Если представить себе, что наш трафик не плоский, а объемный, то получив оценку каждого из каналов в виде одного числа, мы увидим плоскую картину. Это как бы срез внизу воронки в то время, как покупатели двигались и наполняли воронку через разные каналы на разных этапах. И объемный взгляд на происходящее дает гораздо более объективную и прозрачную картину для бизнеса.

Результат оценки влияния рекламной кампании на воронку

Одного числа для оценки рекламной кампании недостаточно — нужно понимать, как эта оценка сформирована. Давайте посмотрим, к чему может привести принятие решений о перераспределении рекламного бюджета только на основе атрибутированного дохода:

Результат оценки влияния рекламной кампании на воронку

В нашем примере выше есть две кампании (это партнерский и дисплейный трафик), которые получают одинаковую рекомендацию и в данном случае — одинаковый доход. Любой маркетолог, увидев эту картину, по-разному отнесется к рекомендации −19%, потому что его опыт говорит о том, что дисплейный трафик — это совершенно не то же самое, что партнерский трафик.

Действительно, если получить информацию о том, как эти каналы распределили свою ценность по шагам воронки, мы увидим, что дисплейный трафик стимулирует верхнюю часть воронки, а affiliate-трафик наибольшую ценность отдает внизу:

Результат оценки влияния рекламной кампании на воронку

И в этом случае экспертное мнение, которое учтено в модели, может привести к следующим выводам: да, некий канал, согласно модели, которая обучена на сессионных данных, выглядит неинтересным и его бюджет стоило бы уменьшить, но это происходит не потому, что канал работает неэффективно.

Это может происходить, потому что каналы, следующие за ним, работают не так эффективно, как должны. Соответственно, игнорирование этой информации может привести к поспешным и неправильным выводам об уменьшении бюджета на те каналы, которые в своей области работают эффективно и действительно формируют спрос. Изменения нужны в других каналах на следующих шагах воронки.

Давайте разберемся, как же правильно сформировать воронку, чтобы получить комплексную оценку каналов.

бонус для читателей

Как применять машинное обучение в атрибуции

Скачать материал

4. Как сформировать шаги воронки

Самый простой способ для ecommerce сайта ― использовать события Google Analytics Enhanced Ecommerce. Но для расчета статистически значимых данных на уровне когорт их недостаточно. Для решения этой задачи есть много разных подходов. Мы поделимся тем, который, на наш взгляд, наиболее применим к каждому бизнесу.

Есть классическая AIDA воронка — четыре шага, через которые проходит покупатель: внимание (Attention), интерес (Interest), желание (Desire), действие (Action). Если мы для каждого пользователя проведем соответствие с тем шагом воронки, на котором он находится, то сможем понять, где те или иные каналы проявляют себя в наилучшим образом.

Подробнее о том, как это сделать, читайте в статье:

Резюмируем: главными экспертными знаниями, которые должна учитывать модель атрибуции на основе машинного обучения являются:

  1. Конверсионное окно.
  2. Природа и управляемость каналов.
  3. Воронка взаимодействия с покупателем. Именно воронка является на наш взгляд фундаментальной составляющей, так как по определению мы не можем ожидать, что все этапы взаимодействия с покупателем будут оцифрованы. Поэтому к нам как аналитикам информация попадает только о части воронки и чаще всего о нижней ее части. Соответственно, игнорируя все, что происходило на верхних этапах, и приравнивая это влияние к нулю, мы получаем крайне искаженную картину.

Наши клиенты
растут на 22% быстрее

Растите быстрее, анализируя, что лучше сработает в вашем маркетинге

Измеряйте KPI, находите зоны роста и увеличивайте свой ROI

Записаться на демо

Техническая реализация

В этом разделе мы поделимся рекомендациями и нюансами технической реализации машинного обучения на базе Google Cloud, которые помогут сэкономить время вам и вашим коллегам.

Что нужно, чтобы произвести эти расчеты с помощью готового продукта, как OWOX BI, или с помощью кастомных решений?

1. Обеспечьте полноту данных

Очевидно, что чем больше данных используется для расчетов, тем больше факторов и более объективно можно учесть. Для создания модели атрибуции вам понадобятся в Google BigQuery следующие данные:

1. Действия пользователей с сайта. Чтобы их собрать, можно использовать различные JS-трекеры, OWOX BI или Google Analytics 360.

2. Данные о показах объявлений. Нужно получить информацию о взаимодействии с верхней частью воронки. А это уже медийная реклама, которая плохо оценивается с помощью классических performance-метрик. Для этого мы разработали OWOX BI Post-View Pixel, который позволяет на уровне пользователя измерить показы медийной рекламы.

Также мы сделали интеграцию с Google Ads Data Hub, который позволяет в BigQuery запрашивать информацию из DCM и некоторых других источников, чтобы бизнес учитывал и прозрачно оценивал вклад медийной рекламы на верхних этапах воронки. Потому что, если расчеты будут основаны только на данных JS-трекера, вы фактически проигнорируете все то, что происходило выше.

3. Расходы на рекламу. Если мы принимаем решение о перераспределении рекламного бюджета, исходя из критериев экономической эффективности, то кроме атрибуции дохода необходимо знать и расход на каждую рекламную кампанию. Это сложнее, чем может показаться, потому что не все рекламные сервисы и каналы могут предоставлять информацию в оперативном режиме, тем более в гранулированном виде.

У OWOX BI есть потоки из Яндекс. Директ и Facebook в Google BigQuery, которые импортируют более 60 параметров для каждой кампании и позволяют использовать в машинном обучении гранулированные данные.

Попробовать OWOX BI бесплатно

4. Емкость каналов, тренды рынка. Это те знания, которые бизнес не может получить самостоятельно. Нам повезло — OWOX BI Insights имеет возможность использовать данные десятков тысяч проектов, чтобы модель машинного обучения учитывала эти знания в предсказательных функциях. Таким образом бизнес, видя некий совет о перераспределении рекламного бюджета, может понимать, что он сформирован не в абстрактном вакууме, а на основе сессий конкретного сайта. Также этот совет учитывает тренды рынка, емкость каналов, расходы на рекламу в гранулированном виде и показы на верхнем этапе воронки.

Наши клиенты
растут на 22% быстрее

Растите быстрее, анализируя, что лучше сработает в вашем маркетинге

Измеряйте KPI, находите зоны роста и увеличивайте свой ROI

Записаться на демо

Предположим, что вы уже собрали все необходимые данные в BigQuery. Давайте разберем, как их использовать.

2. Убедитесь, что атрибуция имеет смысл

Если сгруппировать все заказы по количеству сессий, которое было сделано покупателем до транзакции, то вы увидите некое распределение. Если оно покажет, что у вас 80% транзакций совершаются за одну сессию, то скорее всего любая попытка атрибуции даст результат мало отличимый от Last Non-Direct Click.

Группировка заказов по количеству сессий

Скорее всего, в таком случае следует решать вопросы с marketing mix и оценкой Post-View, а не с тем, чтобы применять разные модели атрибуции к существующим данным.

Понятно, что чем больше у вас информации о верхней части воронки, чем более качественно у вас настроено объединение данных о зарегистрированных и незарегистрированных покупателях, тем больше вы будете видеть взаимодействий на пути конкретного покупателя.

В любом случае, стоит оценить этот показатель до запуска самих расчетов. Он может привести вас к выводу, что любая модель атрибуции у вас неприменима, либо наоборот: «Как здорово, что мы подключили трекер Post-View. Теперь у нас гораздо больше взаимодействий в воронке».

3. Мусор на входе — мусор на выходе

Какой бы JavaScript трекер не был расположен у вас на сайте, его данные не могут быть напрямую использованы для машинного обучения. И вот почему:

  1. Есть много пользователей, сделавших аномальное количество заказов. Разработчики сайтов очень часто предпочитают передавать в поле User ID ноль, когда заказ идет от неавторизованного пользователя. Это шум для модели, который надо исключить.
  2. Есть дубли заказов с одинаковым ID. Такое часто случается, например, когда у пользователя открыта спасибо страница, на которую он может возвращаться для проверки статуса заказа. Такие заказы отправляются в GA, но они не должны участвовать в модели машинного обучения.
  3. У бизнеса есть много кампаний, названия которых по разным причинам менялось в течение времени. Для модели это будет другая кампания — она ведь не знала, что вы перешли от одного агентства к другому, у которого иные правила наименования рекламных кампаний.
  4. Визиты и заказы с IP адреса колл-центра и офиса, которые также нужно отфильтровать, иначе они будут мешать оценить объективное влияние именно покупателей.
  5. Есть B2B покупатели, которые делают, может быть, не аномальное количество заказов, но они явно не те, на ком вы хотите масштабироваться. Их поведение тоже отличается.

Чтобы учесть все эти факторы, необходимо использовать специализированные ETL инструменты. Но выполнить эту работу с помощью SQL в Google BigQuery — не лучший вариант.

Читайте также: как с помощью OWOX BI собирать полные данные о поведении пользователей на сайте и расходы из рекламных сервисов с минимальными ресурсными затратами.

4. Google BigQuery — неудачный выбор для ETL и регулярного обучения модели

  1. В BigQuery недостаточно функций для качественной очистки данных. Самый простой пример — это WINDOW функции, которые имеют понятное ограничение на объем обрабатываемых данных. Они нужны для решения задач обработки когорт, интерполяции или локализации выбросов. Если на вашем сайте больше тысячи посетителей в день, вы не сможете решить эти задачи с помощью одного SQL.
  2. Ограниченный набор моделей. Нельзя выбрать каскад метрик для оптимизации. Да, в BigQuery есть решения из коробки, например, логистическая и линейная регрессии. Однако, если вы получите какие-то результаты и захотите сделать их интерпретируемыми или повысить качество моделей, то средствами встроенных в BigQuery моделей сделать это не удастся.
  3. Экономически неэффективно. Если сайт имеет аудиторию в несколько миллионов, то попытка переобучения модели и добавления параметров будет финансово затратным мероприятием. Расходы составят $250 на терабайт данных и могут достигать нескольких тысяч в месяц.

5. Технологии Machine Learning в Google Cloud

Если обратиться к рекомендациям самого Google — там есть много разных инструментов для решения задач машинного обучения.

Технологии Machine Learning в Google Cloud

На скриншоте выше можно увидеть, что BigQuery ML рекомендуется для SQL аналитика. Если вам нужно быстро решить некую задачу с помощью логистической регрессии, понять, есть ли здесь какое-то взаимное влияние, будет ли отличаться результат от Last Non-Direct Click — пожалуйста. Это требует от вас только базовых знаний.

Однако, если вы не ограничены базовыми знаниями, и ваша цель — получить максимально качество модели, то есть специализированные инструменты в том же Google Cloud или в других средствах разработки, которые лучше для этого подходят.

6. Обеспечьте прозрачную оценку достоверности расчетов

Сколько нужно данных для обучения модели? Прозрачность расчетов является критическим требованием для того, чтобы бизнес мог им доверять. В каждой таблице с результатами расчетов мы специально записываем результат доверительного интервала, исходные данные. Для того, чтобы аналитики и бизнес всегда могли понять, каким образом были схлопнуты когорты. Почему на определенном разрезе они были использованы или нет.

Таблица с результатами расчетов атрибуции

К сожалению, встроенные средства BigQuery ML не позволяют этого сделать. Это некий черный ящик, который на выходе заверяет, что все элементы статистической значимости были учтены, но не позволяет учесть экспертное знание, разделить на когорты и как следствие получить достоверные данные.

бонус для читателей

Как применять машинное обучение в атрибуции

Скачать материал

Вопросы, на которые надо ответить заранее

  • На каком уровне будут приниматься решения с помощью расчета модели атрибуции?
  • На распределение какого бюджета мы претендуем?
  • Какие данные нам доступны для расчетов?
  • Какие инструменты нам доступны для применения результатов?

Ответы на эти вопросы лучше всего получить до того, как вы начнете инвестировать в саму разработку, так как это может сэкономить вам значительную часть времени.

Все, кому интересно вживую посмотреть на работу ML Funnel Based Attribution, могут записаться на демо или бесплатно попробовать OWOX BI.

Наши клиенты
растут на 22% быстрее

Растите быстрее, анализируя, что лучше сработает в вашем маркетинге

Измеряйте KPI, находите зоны роста и увеличивайте свой ROI

Записаться на демо

Использованные инструменты

Часто задаваемые вопросы

Открыть все Закрыть все
  • Что такое машинное обучение?

    Машинное обучение (Machine Learning, ML) — это класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение в процессе применения решений множества сходных задач.
  • Зачем нужно машинное обучение в онлайн-маркетинге?

    Маркетологи используют машинное обучение, чтобы находить шаблоны (паттерны) в действиях пользователей на сайте. Это помогает им предугадывать дальнейшее поведение других пользователей и оперативно корректировать рекламные предложения.
  • Как можно использовать ML в маркетинге?

    • Рекомендательная система — предлагать пользователю товар, в котором он наиболее заинтересован на данный момент.
    • Прогнозный таргетинг — показывать рекламу пользователям на основе вероятности совершения ими покупки.
    • Прогнозировать LTV текущих клиентов на основе имеющихся данных.
    • Прогнозировать Churn Rate, чтобы среагировать на намерение клиента отказаться от услуги еще до фактического отказа.
    • Прогнозировать выполнение годового маркетингового плана, а также находить зоны роста и риски.
    • Использовать OWOX BI ML Funnel Based Attribution.