Статистика в веб-аналитике, или Как стать настоящим Data Scientist

 
4.5
О том, как отслеживать действия пользователей на сайте с помощью популярных инструментов аналитики (OWOX BI, Google Analytics, Яндекс.Метрика) написано множество статей, в том числе и в нашем блоге. Например, здесь можно подробнее почитать о настройках и функциональности GA. Сегодня мы решили копнуть глубже и разобраться с тем, как анализировать полученную информацию. В этой статье вы узнаете, чем Digital-аналитик отличается от Data Scientist и какие задачи можно решать благодаря статистическим методам.

Зачем нужна статистика в веб-аналитике

Итак, что делать с информацией, которую вы собираете на своем сайте? Первое и самое простое, что можно узнать — откуда приходит трафик и его основные характеристики, число посещений, клики и т.д. Для этой задачи достаточно стандартных отчетов в Google Analytics.

Однако для расчета относительных метрик (ROAS Прибыль от размещения рекламы = доход от размещения рекламы / расходы на рекламу × 100% , CPC Сумма, которую рекламодатель платит за один клик по его рекламе и др.) Google Analytics не подходит — иначе получится, как в анекдоте, средняя температура по больнице. Если не учитывать специфику отдельных рекламных каналов, внешние факторы и запущенные тесты, достоверность вычисляемых метрик сводится к нулю.

Есть вопросы и бизнес-задачи, ответы на которые можно найти, применив статистические методы. Например:

  • Классифицировать пользователей, чтобы эффективней работать с рекламными кампаниями.
  • Оценить изменения в дизайне сайта. К примеру, узнать с помощью A/B тестирования, как уменьшение количества полей в форме заказа повлияло на конверсию.
  • Понять, насколько критичной является просадка либо рост той или иной метрики. Для этого необходимо определить интервал допустимых значений основных метрик на сайте.
  • Спрогнозировать поведение пользователя на сайте по тем или иным показателям. Определить потенциальных покупателей и запустить для них рекламные кампании.

Условно весь процесс анализа данных можно разделить на три части:

  1. Digital-аналитика — сбор и анализ полученных данных. Этот этап включает в основном поверхностный анализ взаимодействий пользователей с сайтом и оценку маркетинговых усилий. Digital-аналитики помогают, к примеру, определить самые популярные страницы и категории товаров, найти слабые стороны в функционале сайта.
  2. Data governance — управление данными. Этот этап включает координацию задач между разными отделами в компании и управление доступом к данным.
  3. Data science — наука обработки и управления данными. На этом этапе происходит более глубокий анализ собираемых данных: поведение пользователей на сайте, офлайн-продажи, продажи через колл-центр, данные из CRM. Data Scientists могут оценить влияние того или иного фактора (источник привлечения, геолокация, день недели и т. д.) на наблюдаемый результат, например, конверсию и построить прогноз.

Чем Digital-аналитик отличается от Data Scientist

Фактически Digital-аналитика — это первая ступень на пути к Data Science. Наука о данных широко применяется в различных сферах: аналитике, биологии, медицине, психологии, политологии и т.д. Независимо от сферы деятельности любой Data Scientist должен:

  • Разбираться в предметной области и анализировать имеющиеся результаты.
  • Работать с большим объемом данных (владеть языками программирования R и Python, применять машинное обучение).
  • Разбираться в статистических методах анализа (математическая подготовка).

Если изобразить эти требования схематически, то получится вот такой рисунок, на котором Data Scientist будет в самом центре:

image

Чтобы понять разницу между Digital-аналитиком и Data Scientist, рассмотрим конкретный пример. Допустим, доход от сайта снизился на 3% по сравнению со средним значением прошлой недели.

Digital-аналитик сможет:

  • Подсказать источник, где есть резкое падение трафика.
  • Определить время, когда проявилось снижение.
  • Подсчитать точный процент падения трафика для разных источников.

Data Scientist, используя методы математической статистики, будет рассматривать ситуацию с другого ракурса. Для начала он ответит на вопрос, выходит ли полученное значение дохода за границы области допустимых значений этой метрики (так называемый доверительный интервал). Является ли изменение дохода критичным. Возможно, на это изменение не стоит реагировать, например, если сегодня доход ниже чем на прошлой неделе, но не ниже среднего показателя за месяц.

В целом направление Data Science позволяет решать следующие задачи:

  • Управлять рисками, то есть советовать управленческие решения, которые снизят вероятность неблагоприятного результата и минимизируют возможные потери бизнеса. Подробнее о методах оценки риска вы можете почитать в этой статье.
  • Прогнозировать практически любые важные для вашего бизнеса показатели. Можно использовать для этого модель Бокса-Дженкинса. К примеру, построить прогноз по продажам конкретных товаров на заданный срок. Благодаря этим прогнозам можно планировать закупки, ценовую политику, рекламные кампании и акции.
  • Классифицировать пользователей с помощью логистической регрессии, пробит-регрессии или ROC-кривой. Например, для таргетирования. Вот интересный материал о том, как использовать логистическую регрессию для диагностики заболеваний и оценки кредитоспособности.

А теперь давайте разберем подробнее пару задач, для решения которых нужно применять статистические методы.

Как применять статистические методы в A/B тестировании

A/B тестирование, пожалуй, одна из самых распространенных задач в веб-аналитике. Чтобы результаты тестирования стали по-настоящему полезной информацией, на которую можно положиться, их нужно проверять на значимость. В этом-то и поможет статистика. При проведении A/B тестов следует учитывать такие понятия, как статистическая мощность, длина выборки, доверительный интервал и статистическая значимость. А теперь давайте на примерах разберем, что они означают.

Статистическая мощность измеряется в процентах и определяет, насколько вероятно, что тест покажет разницу между вариантом А и В, если она есть. К примеру, вы хотите проверить гипотезу, что мужчинам больше нравится зеленый цвет, чем красный. Если вы покажете разные варианты кнопки двум мужчинам и один нажмет красную кнопку, а другой — зеленую, можно ли говорить, что ваша гипотеза опровергнута? Конечно нет, потому что один из двух мужчин мог оказаться любителем ярких цветов или дальтоником. Если же вы покажете кнопки, например, тысяче посетителей сайта мужского пола, то уже сможете определить, кнопка какого цвета нравится мужчинам. То есть, чем больше длина (размер) выборки для теста, тем выше его статистическая мощность. Не стоит доверять тестам, статистическая мощность которых ниже 80%.

Так какой же должна быть выборка, чтобы результат был достоверным? Это зависит от того, какой статистической мощности и значимости (о ней мы напишем чуть ниже) вы ждете от теста. К счастью, считать длину выборки вручную совсем не обязательно — есть огромное количество удобных онлайн-калькуляторов, например этот. Как пользоваться этим калькулятором, вы можете почитать в статье.

Следующий аспект, который нужно учитывать при A/B тестировании — это статистическая значимость. Она определяет, насколько вероятно, что тест показал разницу между вариантом А и В, которой в действительности не существует. Оптимальный уровень значимости для А/B теста (также его называют доверительной вероятностью) составляет 95%. То есть вероятность ошибки (так называемое Р-значение) составляет оставшиеся 5%. Статистическая значимость теста зависит от доверительных интервалов и площади их пересечения.

Доверительный интервал Предельные значения показателя, который с заданной доверительной вероятностью будет находиться в этом интервале при выборке большего объема показывает, насколько стабилен показатель, который вы получили в результате теста, то есть повторится ли он, если увеличить выборку. Допустим, вы показали тысяче посетителей своего сайта зеленую кнопку (вариант А), и 30% на нее нажали. Вычисляем погрешность для доверительного интервала с помощью онлайн-калькулятора и получаем ± 2,8%. Это значит, что если увеличить выборку, то с вероятностью в 95% на зеленую кнопку нажмут от 27,2% до 32,8% посетителей. Другой тысяче посетителей вы показали красную кнопку (вариант B), и на нее нажали 26%. Доверительный интервал для этой группы — от 23,3% до 28,7%.

Если сравнить доверительные интервалы для вариантов А и B, мы увидим, что они пересекаются в диапазоне от 27,2% до 28,7%. Графически это выглядит так:

image

На горизонтальной оси графика — KPI (в нашем случае конверсия), на вертикальной оси — плотность вероятности (плотность распределения случайной величины).

Чем меньше площадь пересечения доверительных интервалов, тем выше достоверность результатов тестирования. В нашем примере это пересечение составляет 1,5%. Эта цифра не превышает Р-значение в 5%, а значит тесту можно доверять.

Существует ряд статистических критериев, которые помогают решить, принимать или не принимать изначально поставленную гипотезу. Один из самых известных и применяемых — t-критерий (или критерий Стьюдента). На самом деле под t-критерием, как правило, понимают не один конкретный метод, а целый класс методов проверки статистических гипотез, основанных на распределении Стьюдента. Вот пример калькулятора, с помощью которого можно рассчитать t-критерий и проверить корректность теста. Просто заполните зеленые ячейки своими значениями, которые вы получили в результате тестирования.

А для гиков есть формулы :)

Применить t-критерий можно только при следующих условиях:

  1. Исходные данные должны иметь нормальное распределение.
  2. Если применяется двухвыборочный t-критерий для независимых выборок Проверяет гипотезу о равенстве средних значений в двух выборках. Применяется, например, когда нужно сравнить оценки по итоговому экзамену в двух разных ВУЗах , дисперсии должны быть равны.

Двухвыборочный t-критерий для независимых выборок

Если размеры выборок отличаются незначительно, применяется упрощённая формула приближенных расчетов:

image

где X1 и X2— случайные величины, n1 и n2— количество элементов выборки, а

image

Количество степеней свободы рассчитывается как:

image

Основные преимущества t-теста в том, что он:

  • Нормально работает с огромными выборками (нет ограничения на объем данных).
  • Учитывает распределение и величину выборки.
  • Подходит для измерения разных параметров (можно сравнивать и количественные показатели в том числе).

Итак, вы решили стать Data Scientist. С чего начать?

Мы сделали подборку самых популярных и интересных ресурсов для легкого старта на пути от аналитика до Data Scientist.

В сети доступно множество бесплатных курсов, которые проводятся в формате лекций. После каждой лекции вы получаете небольшой список заданий и тем для самостоятельного изучения. Если что-то не выходит, вы можете задать вопрос преподавателю на форуме. Кроме того, по завершению курса можно получить платный сертификат. Вот несколько доступных площадок:

Язык программирования R — наиболее распространенный инструмент для работы с большими данными. Вот несколько ресурсов, которые помогут вам выучить язык и пообщаться с профессионалами:

И приятная плюшка — онлайн-игры по теории вероятностей и математической статистике:

Мы обещали парочку примеров использования статистических методов, а в статье уместилось только A/B тестирование. Оставьте свой email, и мы пришлем вам файл с примером, как классифицировать пользователей. Вы сможете выделить сегменты с наиболее высоким и низким LTV Прибыль, которую компания получает от одного клиента за все время сотрудничества с ним , чтобы применять для них разные маркетинговые стратегии.

Надеемся, статья была полезной :) Если у вас остались вопросы, охотно ответим на них в комментариях.