Как избежать семплирования в Google Analytics

290
10253
Материалы для скачивания
978.32 Kb

Семплирование помогает сделать обобщенные выводы, когда невозможно или нецелесообразно анализировать все собранные данные. Его суть в том, что Google Analytics выбирает из всего объема данных лишь какую-то часть и использует ее для построения отчетов.

Семплирование характерно не только для GA — его используют в опросах общественного мнения, потребительских тестах, статистических исследованиях и т.д. Каждый раз, когда применяется семплирование, есть риск получить неточные результаты. В этой статье вы узнаете, каковы причины и проблемы семплирования, и как его избежать.

В этой статье вы узнаете:

Когда и почему происходит семплирование

Обрабатывать огромные массивы данных за максимально короткое время — непростая задача даже для Google. Чтобы снизить нагрузку на серверы и достичь баланса между скоростью и точностью обработки, Google Analytics анализирует лишь часть данных.

Как понять, что применялась выборка? Наведите курсор на значок щита в верхней части отчета, и вы увидите сообщение «Отчет создан на основе анализа N% от общего числа сеансов». Если цифра меньше 100%, значит данные семплированные.

Уведомление о семплировании в Google Analytics

Обычно это происходит, если количество сессий за выбранный период превышает 500 тыс. Однако стоит помнить, что семплирование зависит не только от количества сеансов в отчетах. Чем сложнее запрос, тем выше риск получить неточные данные. При этом в разных отчетах GA принцип выборки отличается.

Отчеты по умолчанию (Default Reports)

В стандартных отчетах из разделов «Аудитория», «Источники трафика», «Поведение» и «Конверсии» семплирование не применяется. Почему так происходит? Для каждого ресурса в Google Analytics сохраняется полный набор данных. В свою очередь, для каждого представления в ресурсе создаются агрегированные таблицы с комбинациями определенных параметров и показателей, взятых из полных данных. Информация в агрегированных таблицах обновляется ежедневно. Это значит, что показатели для параметров в отчетах по умолчанию уже рассчитаны, и построение отчета не займет много времени.

На скриншоте ниже стандартный отчет, основанный на полных данных без семплирования:

Отчет на основе 100% сеансов (без семплирования)

Быстрые отчеты (Ad-hoc Reports)

Когда вы вносите изменения в отчет по умолчанию: применяете сегмент, фильтр или добавляете параметр, Google Analytics отправляет запрос к данным в агрегированных таблицах. То же самое происходит при создании пользовательских отчетов с комбинациями параметров и показателей, которых нет в отчетах по умолчанию. Если запрашиваемой информации нет в таблицах, GA обращается к необработанным данным. Если в выбранном периоде было больше 500 тыс. сессий, данные в отчете семплируются.

Вот пример отчета на основе семплированных данных:

Cемплированный отчет в GA

Визуализация переходов (Flow-visualization Reports)

В отчетах «Карта поведения», «Карта событий», «Карта целей», «Пути пользователей» и других картах переходов Google Analytics обрабатывает максимум 100 тыс. сессий. Выше этого порога данные всегда семплируются. Поскольку отчеты с визуализацией переходов и отчеты по умолчанию строятся на выборках разных размеров, одни и те же метрики в них могут не совпадать.

Так выглядит отчет «Карта целей», основанный на семплированных данных:

Отчет 'Карта целей', построенный на основе выборки

Отчеты по многоканальным последовательностям и атрибуции

В отчетах по многоканальным последовательностям и атрибуции (Multi-Channel Funnel and Attribution Reports) выборка не применяется, если вы не измените отчет каким-либо образом, например, добавив сегмент или параметр. В противном случае лимит семплирования составит 1 млн конверсий.

В чем минусы семплирования

Если размер выборки, скажем, 90% сессий, то информация в ваших отчетах, скорее всего, будет надежной. Однако чем ниже процент данных, используемый для анализа, тем менее точными будут результаты. Допустим, вы видите отчет, основанный на 1% от 100 сессий. Это значит, что Google Analytics проанализировал 1 сессию, умножил результат на 100 и выдал его в отчете. Насколько объективной будет ваша оценка, еслии 99% данных остались покрыты мраком? Вопрос риторический.

Не видя всей картины, вы не можете полностью доверять своим данным. Когда производитель зубной пасты утверждает, что 8 из 10 стоматологов рекомендуют ее как лучшую, откуда нам знать, сколько всего врачей опросили? Вдруг специально выбрали лояльных стоматологов, чтобы обеспечить нужное мнение. Ваш мозг читает «8 из 10» и интерпретирует это как 80%, хотя многое осталось за кадром. При семплировании Google Analytics работает так же.

Семплирование — небольшая проблема, если вы смотрите только на количество сессий. Однако, когда речь идет о показателях, связанных с деньгами, таких как цели, конверсии и доход, выборка может стоить вам целое состояние. Семплированные отчеты искажают показатели. Из-за этого вы рискуете не заметить рекламу, которая приносит прибыль, или наоборот — тратить деньги на неэффективные кампании.

Как избежать семплирования

Стоит ли бороться с семплированием, зависит от того, какой уровень погрешности вы допускаете в отчетах. Если вы считаете, что выборка стала проблемой, вот несколько советов, как ее избежать или минимизировать.

В интерфейсе Google Analytics

Начнем со способов, для которых не нужны дополнительные инструменты — вы можете обойти семплирование с помощью настроек в аккаунте Google Analytics.

1. Сократить отчетный период

Чем длиннее период в отчете, тем больше данных нужно обработать Google Analytics, и тем выше риск семплирования. И наоборот — за срок покороче можно получить более точные данные. Например, вам нужен отчет за полгода, но GA семплирует данные из-за высокого количества сессий. Если за месяц у вас в ресурсе собирается меньше 500 тыс. посещений, попробуйте просмотреть данные за каждый месяц и сложить результаты.

Короткий отчетный период помогает обойти семплирование

2. Не использовать быстрые отчеты

Иногда у аналитиков возникает соблазн использовать индивидуальные, быстрые отчеты, хотя зачастую ту же информацию можно посмотреть в отчетах по умолчанию. Как мы писали выше, в большинстве стандартных отчетов Google Analytics выборка не применяется. Это значит, что избегая сегменты и дополнительные параметры в отчетах, можно получить более точные цифры.

Например, вы хотите оценить объем органического трафика на сайт. Можно применить сегмент «Бесплатный трафик» в отчете «Страницы входа», а можно открыть стандартный отчет «Каналы» и посмотреть на органический трафик с основным параметром «Страницы входа». В первом случае данные могут семплироваться, а во втором вы увидите отчет на основе 100% сессий.

Следует упомянуть, что отчет по умолчанию за день может содержать максимум 50 тыс. строк. В быстрых отчетах этот лимит — 1 млн строк в день. Когда количество строк в отчетах превышает этот порог, то Google Analytics объединяет все оставшиеся данные в строку «Другие».

строка other в отчетах Google Analytics

3. Настроить фильтры на уровне представления

Google Analytics семплирует данные после применения фильтров уровня представления. То есть выборка делается из сеансов, которые прошли через фильтр. Вы можете избежать семплирования, собирая в представлении только необходимые данные и отсекая все лишнее. Например, вы хотите увидеть, сколько посетителей зашли на сайт благодаря поисковым запросам, а использование сегмента «Бесплатный трафик» приводит к семплированию. В таком случае можно создать дублирующее представление и применить к нему фильтр, чтобы видеть только органический трафик:

Фильтры на уровне представления помогут избежать семплирования

Этот подход — не панацея для быстрых запросов, так как в них все еще может применяться выборка при больших объемах данных. Зато отчеты по умолчанию точно предоставят вам достоверную несемплированную информацию.

Обратите внимание, что не рекомендуется фильтровать данные по параметрам уровня страницы. Скажем, у вас Ecommerce-сайт с различными категориями продуктов и страницами. Если вы используете разные представления для каждого типа страницы, сессия одного пользователя может быть учтена в разных представлениях. Из-за этого общее количество сеансов может сильно завышаться.

4. Создать отдельный ресурс для каждого сайта

Общепринятая практика — отслеживать несколько сайтов в одном ресурсе Google Analytics и использовать фильтры, если нужно посмотреть на данные конкретного сайта. Чем больше данных вы собираете в одном ресурсе, тем выше риск получить отчет с выборкой. Если это ваш случай, используйте отдельный ресурс для каждого сайта. Это уменьшит объем трафика в ресурсе, а с ним — и риск семплирования.

Создание ресурса в GA

Вне интерфейса Google Analytics

Также можно избежать семплирования, выгрузив данные из GA в Google BigQuery или Google Sheets. Имейте в виду, что невозможно извлечь необработанные демографические данные из Google Analytics, так как система их всегда агрегирует.

5. Использовать Google Analytics API

Еще один способ решить проблему с семплированием — обращаться к данным программно через Reporting API. Да, ответы API могут содержать семплированные данные, если выбран длительный период времени. Однако API позволяет вам указать, сколько данных вы хотите получить в одном запросе, а также установить уровень семплирования. Если у сайта высокий трафик, вам понадобится выполнить сотни запросов, чтобы извлечь все данные без семплирования. API позволяет отправлять до 50 тыс. запросов в день на один проект и возвращает до 10 тыс. строк на запрос.

Недостаток этого подхода в том, что он отнимает много времени. Невозможно запускать тысячи ежедневных запросов вручную, поэтому для автоматизации процесса требуются навыки программирования. Кроме того, API позволяет получить максимум 7 параметров и 10 показателей в одном отчете:

Параметры и показатели в Google Analytics Core Reporting API

При этом в запросе всегда должен быть хотя бы один показатель, и не все параметры можно запрашивать вместе. Узнать больше о Reporting API вы можете в руководстве Google для разработчиков.

6. Использовать аддон Google Analytics Spreadsheet

Официальный аддон позволяет автоматически и без программирования получать данные из Google Analytics в Google Sheets, рассчитывать новые параметры и метрики, строить отчеты и делиться им с партнерами и коллегами. У дополнения есть еще одно преимущество: с его помощью можно выгрузить до 9 параметров, что на 2 больше, чем через Reporting API.

Аддон Google Analytics Spreadsheets позволяет запрашивать несемплированные данные

Однако Google Analytics Spreadsheet имеет ограничение — 400 тыс. ячеек в одной таблице. Из-за чего выгрузить и обработать большие объемы данных не получится.

7. Перейти на Google Analytics 360

В  платной версии Google Analytics предусмотрено несколько решений для борьбы с выборкой:

  • Высокий порог семплирования — 100 млн сессий на уровне представления. Это в 200 раз больше данных по сравнению с бесплатной версией.
  • «Полные отчеты» (Unsampled Reports), которые могут содержать до 3 млн уникальных строк данных. Полный отчет можно запускать разово при необходимости или по расписанию.
  • Специальные таблицы (Custom Tables) объемом до 1 млн строк в день, с помощью которых можно получить мгновенный доступ к несемплированным данным, сгруппированным по заданной комбинации параметров, показателей, сегментов и фильтров. Каждая таблица может содержать до 6 параметров, 25 показателей, 5 фильтров и 4 сегментов.

Благодаря высокому лимиту выборки в Google Analytics 360 ваши отчеты будут содержать полные данные:

Кроме того, Google Analytics 360 интегрирован с облачным хранилищем Google BigQuery. Это позволяет автоматически импортировать в хранилище несемплированные данные и за считанные секунды создавать отчеты любой структуры и сложности с помощью SQL-запросов. Также пользователи GA 360 ежемесячно получают купон на 500 $ для оплаты расходов в Google BigQuery.

Google Analytics 360 — это решение для крупного бизнеса, которое требует значительных вложений. О переходе на платную версию стоит задуматься, если ваш сайт получает более 10 млн хитов в месяц, семплирование постоянно искажает данные, а годовой доход позволяет инвестировать в лицензию. Подробнее о том, как рассчитывается стоимость GA 360 , мы рассказали на вебинаре.

8. Использовать OWOX BI Pipeline

OWOX BI Pipeline помогает избежать выборки без инвестиций в Google Analytics 360 или автоматизации запросов к API. Сырые несемплированные данные попадают в Google BigQuery непосредственно с сайта в реальном времени. Вам достаточно создать Custom Task или Custom HTML тег в своем контейнере GTM — BI Pipeline сделает все остальное. Поскольку OWOX BI использует собственный алгоритм формирования сессий, данные всегда будут несемплированными, вне зависимости от количества сессий в Google Analytics. Подписка на OWOX BI Pipeline стоит от 115 $ в месяц — вы можете попробовать его бесплатно в течение 14 дней.

Подводя итоги, мы собрали в одну таблицу все способы обойти семплирование, их плюсы, минусы и рекомендуемый объем данных. Подберите решение, которое подойдет именно вам.

В интерфейсе Google Analytics
Решение Google Analytics 360 Отчеты по умолчанию Сокращение отчетного периода Фильтры на уровне представления
Плюсы
  • Лимит семплирования: 100 млн сессий
  • Полные отчеты без семплирования
  • Специальные таблицы: до 1 млн строк в день
Всегда без семплирования, благодаря предварительно рассчитанным данным Чем короче временной интервал, тем точнее данные и меньше риск семплирования Сократите объем анализируемых данных с помощью фильтров, например, по трафику
Минусы Высокая стоимость годовой лицензии
  • Максимум 2 параметра в отчете
  • Ограниченный набор отчетов
  • Чтобы получить данные за более длительный период, нужно приложить больше усилий
  • Максимум 5 параметров в отчете
  • Параметры уровня страницы увеличивают количество пользователей
  • Максимум 5 параметров в отчете
Рекомендуемое количество сессий в день 1 млн и больше 500 тыс. 500 тыс. 500 тыс.
Вне интерфейса Google Analytics
Решение Экспорт данных из Google Analytics 360 в Google BigQuery OWOX BI Pipeline + Google BigQuery Google Analytics Core Reporting API Google Analytics Spreadsheet Add-on
Плюсы
  • Хитовые данные доступны в режиме, близком к реальному времени
  • Экспорт несемплированных сессионных данных
  • Максимум 200 параметров в отчете
  • Сырые данные о хитах доступны в реальном времени
  • Несемплированные данные о сессиях
  • Неограниченное количество параметров в отчетах
  • Бесплатный Trial на 14 дней
  • Программный способ получить несемплированные данные
  • API позволяет отправлять до 50 тыс. запросов в день и возвращает до 10 тыс. строк на запрос
  • Максимум 9 параметров в отчете
  • Без программирования
Минусы Доступно только для пользователей Google Analytics 360 Сырые данные из AdWords нужно импортировать с помощью Google BigQuery Data Transfer Service
  • Требует навыков программирования
  • Некоторые параметры и показатели не совместимы в одном отчете
  • Максимум 7 параметров в запросе
Невозможно использовать для большого объема данных
Рекомендуемое количество сессий в день 1 млн и больше 1 млн 1 млн 40 тыс.

А как вы решаете проблему семплирования? Делитесь идеями и оставляйте вопросы в комментариях.

Вас также могут заинтересовать