Как избежать семплирования в Google Analytics

Материалы для скачивания
1.14 Mb

Семплирование помогает сделать обобщенные выводы, когда невозможно или нецелесообразно анализировать все собранные данные. Google Analytics выбирает из всего объема данных лишь какую-то часть и использует ее для построения отчетов.

Семплирование характерно не только для GA — его используют в опросах общественного мнения, потребительских тестах, статистических исследованиях и т. д. Каждый раз, когда применяется семплирование, есть риск получить неточные результаты. В этой статье вы узнаете, каковы причины и проблемы семплирования, и как его избежать.

бонус для читателей

Сравнительная таблица: 8 способов избежать семплирования

Скачать материал

Содержание

Когда и почему происходит семплирование

Обрабатывать огромные массивы данных за максимально короткое время — непростая задача даже для Google. Чтобы снизить нагрузку на серверы и достичь баланса между скоростью и точностью обработки, Google Analytics анализирует лишь часть данных.

Как понять, что применялась выборка? Наведите курсор на значок щита в верхней части отчета, и вы увидите сообщение «Отчет создан на основе анализа N% от общего числа сеансов». Если цифра меньше 100%, значит данные семплированные.

Сообщение о выборке данных в Google Analytics

Обычно это происходит, если количество сессий за выбранный период превышает 500 тыс. Однако стоит помнить, что семплирование зависит не только от количества сеансов в отчетах. Чем сложнее запрос, тем выше риск получить неточные данные. При этом в разных отчетах GA принцип выборки отличается.

Отчеты по умолчанию (Default Reports)

В стандартных отчетах из разделов «Аудитория», «Источники трафика», «Поведение» и «Конверсии» семплирование не применяется. Почему так происходит? Для каждого ресурса в Google Analytics сохраняется полный набор данных. В свою очередь, для каждого представления в ресурсе создаются агрегированные таблицы с комбинациями определенных параметров и показателей, взятых из полных данных. Информация в агрегированных таблицах обновляется ежедневно. Это значит, что показатели для параметров в отчетах по умолчанию уже рассчитаны, и построение отчета не займет много времени.

На скриншоте ниже стандартный отчет, основанный на полных данных без семплирования:

Отчеты по умолчанию (Default Reports) в Google Analytics

Быстрые отчеты (Ad-hoc Reports)

Когда вы вносите изменения в отчет по умолчанию: применяете сегмент, фильтр или добавляете параметр, Google Analytics отправляет запрос к данным в агрегированных таблицах. То же самое происходит при создании пользовательских отчетов с комбинациями параметров и показателей, которых нет в отчетах по умолчанию.

Если запрашиваемой информации нет в таблицах, GA обращается к необработанным данным. Если в выбранном периоде было больше 500 тыс. сессий, данные в отчете семплируются. Однако, в некоторых случаях семплирование в быстрых отчетах может применяться и на меньшем количестве сессий — это зависит от сложности запроса, используемых в отчете фильтров и сегментов.

Вот пример отчета на основе семплированных данных:

Быстрые отчеты (Ad-hoc Reports) в Google Analytics

Визуализация переходов (Flow-visualization Reports)

В отчетах «Карта поведения», «Карта событий», «Карта целей», «Пути пользователей» и других картах переходов Google Analytics обрабатывает максимум 100 тыс. сессий. Выше этого порога данные всегда семплируются. Поскольку отчеты с визуализацией переходов и отчеты по умолчанию строятся на выборках разных размеров, одни и те же метрики в них могут не совпадать.

Так выглядит отчет «Карта целей», основанный на семплированных данных:

Визуализация переходов (Flow-visualization Reports) в Google Analytics

Отчеты по многоканальным последовательностям и атрибуции

В отчетах по многоканальным последовательностям и атрибуции (Multi-Channel Funnel and Attribution Reports) выборка не применяется, если вы не измените отчет каким-либо образом, например, добавив сегмент или параметр. В противном случае лимит семплирования составит 1 млн конверсий.

В чем минусы семплирования

Если размер выборки, скажем, 90% сессий, то информация в ваших отчетах, скорее всего, будет надежной. Однако чем ниже процент данных, используемый для анализа, тем менее точными будут результаты. Допустим, вы видите отчет, основанный на 1% от 100 сессий. Это значит, что Google Analytics проанализировал 1% сессий, умножил результат на 100 и выдал его в отчете. Насколько объективной будет ваша оценка, еслии 99% данных остались покрыты мраком? Вопрос риторический.

Не видя всей картины, вы не можете полностью доверять своим данным. Когда производитель зубной пасты утверждает, что 8 из 10 стоматологов рекомендуют ее как лучшую, откуда нам знать, сколько всего врачей опросили? Вдруг специально выбрали лояльных стоматологов, чтобы обеспечить нужное мнение. Ваш мозг читает «8 из 10» и интерпретирует это как 80%, хотя многое осталось за кадром. При семплировании Google Analytics работает так же.

Семплирование — небольшая проблема, если вы смотрите только на количество сессий. Однако, когда речь идет о показателях, связанных с деньгами, таких как цели, конверсии и доход, выборка может стоить вам целое состояние. Семплированные отчеты искажают показатели. Из-за этого вы рискуете не заметить рекламу, которая приносит прибыль, или наоборот — тратить деньги на неэффективные кампании.

Как избежать семплирования

Стоит ли бороться с семплированием, зависит от того, какой уровень погрешности вы допускаете в отчетах. Если вы считаете, что выборка стала проблемой, вот несколько советов, как ее избежать или минимизировать.

В интерфейсе Google Analytics

Начнем со способов, для которых не нужны дополнительные инструменты — вы можете обойти семплирование с помощью настроек в аккаунте Google Analytics.

1. Сократить отчетный период

Чем длиннее период в отчете, тем больше данных нужно обработать Google Analytics, и тем выше риск семплирования. И наоборот — за срок покороче можно получить более точные данные. Например, вам нужен отчет за полгода, но GA семплирует данные из-за высокого количества сессий. Если за месяц у вас в ресурсе собирается меньше 500 тыс. посещений, попробуйте просмотреть данные за каждый месяц и сложить результаты.

Отчетный период в Google Analytics

2. Не использовать быстрые отчеты

Иногда у аналитиков возникает соблазн использовать индивидуальные, быстрые отчеты, хотя зачастую ту же информацию можно посмотреть в отчетах по умолчанию. Как мы писали выше, в большинстве стандартных отчетов Google Analytics выборка не применяется. Это значит, что избегая сегменты и дополнительные параметры в отчетах, можно получить более точные цифры.

Например, вы хотите оценить объем органического трафика на сайт. Можно применить сегмент «Бесплатный трафик» в отчете «Страницы входа», а можно открыть стандартный отчет «Каналы» и посмотреть на органический трафик с основным параметром «Страницы входа». В первом случае данные могут семплироваться, а во втором вы увидите отчет на основе 100% сессий.

Следует упомянуть, что отчет по умолчанию за день может содержать максимум 50 тыс. строк. В быстрых отчетах этот лимит — 1 млн строк в день. Когда количество строк в отчетах превышает этот порог, то Google Analytics объединяет все оставшиеся данные в строку «Другие».

Агрегирование данных в отчетах Google Analytics

3. Настроить фильтры на уровне представления

Google Analytics семплирует данные после применения фильтров уровня представления. То есть выборка делается из сеансов, которые прошли через фильтр. Вы можете избежать семплирования, собирая в представлении только необходимые данные и отсекая все лишнее. Например, вы хотите увидеть, сколько посетителей зашли на сайт благодаря поисковым запросам, а использование сегмента «Бесплатный трафик» приводит к семплированию. В таком случае можно создать дублирующее представление и применить к нему фильтр, чтобы видеть только органический трафик:

Фильтры на уровне представления в Google Analytics

Этот подход — не панацея для быстрых запросов, так как в них все еще может применяться выборка при больших объемах данных. Зато отчеты по умолчанию точно предоставят вам достоверную несемплированную информацию.

Обратите внимание, что не рекомендуется фильтровать данные по параметрам уровня страницы. Скажем, у вас Ecommerce-сайт с различными категориями продуктов и страницами. Если вы используете разные представления для каждого типа страницы, сессия одного пользователя может быть учтена в разных представлениях. Из-за этого общее количество сеансов может сильно завышаться.

4. Создать отдельный ресурс для каждого сайта

Общепринятая практика — отслеживать несколько сайтов в одном ресурсе Google Analytics и использовать фильтры, если нужно посмотреть на данные конкретного сайта. Чем больше данных вы собираете в одном ресурсе, тем выше риск получить отчет с выборкой. Если это ваш случай, используйте отдельный ресурс для каждого сайта. Это уменьшит объем трафика в ресурсе, а с ним — и риск семплирования.

Настройки ресурса в Google Analytics

Вне интерфейса Google Analytics

Также можно избежать семплирования, выгрузив данные из GA в Google BigQuery или Google Sheets. Имейте в виду, что невозможно извлечь необработанные демографические данные из Google Analytics, так как система их всегда агрегирует.

1. Использовать OWOX BI Pipeline

OWOX BI собирает данные в Google BigQuery непосредственно с сайта. Сервис не зависит от ограничений Google Analytics, что позволит вам строить отчеты без семплирования и по любым параметрам.

При этом OWOX BI использует структуру данных, совместимую со структурой Google Analytics, под которую написано множество примеров SQL-запросов. Это сэкономит время вашей команды на подготовку отчетов.

OWOX BI Pipeline Как получить несемплированные данные из Google Analytics

  • Просмотров: 81
  • 05 Декабря 2018

Собирая сырые данные с помощью OWOX BI, вы сможете:

  1. Строить отчеты без семплирования и ограничений. Сервис передает данные с сайта в Google BigQuery в полном объеме и в неагрегированном виде, а размер передаваемого хита увеличен до 16 КБ. Вы получите полную картину о действиях пользователей на вашем сайте.
  2. Передавать в BigQuery неограниченное количество кастомных параметров и показателей. Это позволит вам сегментировать пользователей по любому признаку и строить более глубокие отчеты для детального анализа.
  3. Анализировать данные в режиме реального времени. С OWOX BI вы быстрее сформируете триггерную рассылку или обнаружите проблемы на сайте, потому что данные о действиях пользователей появляются в вашем BigQuery проекте в течение 1-5 минут после того, как эти действия произошли.
  4. Сравнивать рентабельность когорт, лендингов и товарных групп. Сервис рассчитывает ценность каждой сессии. Благодаря этому вы сможете посчитать ROI/ROAS для новых и вернувшихся пользователей. Узнать, сколько вы тратите и сколько зарабатываете на каждой из групп товаров. Оценить эффективность рекламы для разных регионов, посадочных страниц, мобильных версий и приложений.
  5. Учесть выкупаемость заказов, возвраты после покупки или узнать, что делал новый подписчик на вашем сайте за последние 30 дней до регистрации. Сервис позволяет ретроспективно обновлять данные о расходах, пользователях и транзакциях, уже загруженные в Google BigQuery.
  6. Не переживать за качество и сохранность своих данных. OWOX BI ежедневно сравнивает данные в вашем BigQuery с информацией из Google Analytics и сообщает о значимых расхождениях. Это значит, что вы не потеряете никаких важных данных, чего не могут обеспечить сторонние трекеры. Также сервис автоматически сохраняет данные при сбоях в вашем GA и Google Cloud проекте и гарантирует в договоре соблюдение уровня качества сбора и обработки данных (SLA) выше 96%.
  7. Собирать персональные данные пользователей. В отличие от Google Analytics, в BigQuery вы можете собирать и использовать персональные данные клиентов, в том числе email и номера телефонов.

Подробнее о всех преимуществах сбора данных с сайта с помощью OWOX BI читайте в статье «Как обойти семплирование и собрать полные данные для продвинутой аналитики».

Вы можете бесплатно попробовать все возможности OWOX BI

2. Использовать Google Analytics API

Еще один способ решить проблему с семплированием — обращаться к данным программно через Reporting API. Да, ответы API могут содержать семплированные данные, если выбран длительный период времени. Однако API позволяет вам указать, сколько данных вы хотите получить в одном запросе, а также установить уровень семплирования. Если у сайта высокий трафик, вам понадобится выполнить сотни запросов, чтобы извлечь все данные без семплирования. API позволяет отправлять до 50 тыс. запросов в день на один проект и возвращает до 10 тыс. строк на запрос.

Недостаток этого подхода в том, что он отнимает много времени. Невозможно запускать тысячи ежедневных запросов вручную, поэтому для автоматизации процесса требуются навыки программирования. Кроме того, API позволяет получить максимум 7 параметров и 10 показателей в одном отчете:

Google Analytics API

При этом в запросе всегда должен быть хотя бы один показатель, и не все параметры можно запрашивать вместе. Узнать больше о Reporting API вы можете в руководстве Google для разработчиков.

3. Использовать аддон Google Analytics Spreadsheet

Официальный аддон позволяет автоматически и без программирования получать данные из Google Analytics в Google Sheets, рассчитывать новые параметры и метрики, строить отчеты и делиться им с партнерами и коллегами. У дополнения есть еще одно преимущество: с его помощью можно выгрузить до 9 параметров, что на 2 больше, чем через Reporting API.

Аддон Google Analytics Spreadsheet

Однако Google Analytics Spreadsheet имеет ограничение — 400 тыс. ячеек в одной таблице. Из-за чего выгрузить и обработать большие объемы данных не получится.

4. Перейти на Google Analytics 360

В платной версии Google Analytics предусмотрено несколько решений для борьбы с выборкой:

  • Высокий порог семплирования — 100 млн сессий на уровне представления. Это в 200 раз больше данных по сравнению с бесплатной версией.
  • «Полные отчеты» (Unsampled Reports), которые могут содержать до 3 млн уникальных строк данных. Полный отчет можно запускать разово при необходимости или по расписанию.
  • Специальные таблицы (Custom Tables) объемом до 1 млн строк в день, с помощью которых можно получить мгновенный доступ к несемплированным данным, сгруппированным по заданной комбинации параметров, показателей, сегментов и фильтров. Каждая таблица может содержать до 6 параметров, 25 показателей, 5 фильтров и 4 сегментов.
Узнать больше о Google Analytics 360

Благодаря высокому лимиту выборки в Google Analytics 360 ваши отчеты будут содержать полные данные:

Отчет без семплирования в Google Analytics 360

Кроме того, Google Analytics 360 интегрирован с облачным хранилищем Google BigQuery. Это позволяет автоматически импортировать в хранилище несемплированные данные и за считанные секунды создавать отчеты любой структуры и сложности с помощью SQL-запросов. Также пользователи GA 360 ежемесячно получают купон на 500 $ для оплаты расходов в Google BigQuery.

Google Analytics 360 — это решение для крупного бизнеса, которое требует значительных вложений. О переходе на платную версию стоит задуматься, если ваш сайт получает более 10 млн хитов в месяц, семплирование постоянно искажает данные, а годовой доход позволяет инвестировать в лицензию. Подробнее о том, как рассчитывается стоимость GA 360, мы рассказали на вебинаре.

Подводя итоги, мы собрали в одну таблицу все способы обойти семплирование, их плюсы, минусы и рекомендуемый объем данных. Подберите решение, которое подойдет именно вам.

бонус для читателей

Сравнительная таблица: 8 способов избежать семплирования

Скачать материал

А как вы решаете проблему семплирования? Делитесь идеями и оставляйте вопросы в комментариях.

Часто задаваемые вопросы

Открыть все Закрыть все
  • Что такое семплирование в Google Analytics?

    Google Analytics выбирает из всего объема данных лишь какую-то часть и использует ее для построения отчетов. Когда применяется семплирование, есть риск получить неточные результаты.
  • Почему происходит семплирование?

    Чтобы снизить нагрузку на серверы и достичь баланса между скоростью и точностью обработки, Google Analytics анализирует лишь часть данных.
  • Как избежать семплирования с помощью настроек Google Analytics?

    1. Сократить отчетный период в отчете.
    2. Вместо быстрых отчетов (Ad-hoc Reports) использовать отчеты по умолчанию (Default Reports).
    3. Настроить фильтры на уровне представления.
    4. Создать отдельный ресурс Google Analytics для каждого сайта.
  • Как избежать семплирования вне интерфейса Google Analytics?

    1. Собирать сырые данные с сайта в Google BigQuery с помощью OWOX BI.
    2. Обращаться к данным программно через Google Analytics Core Reporting API.
    3. Получать данные из Google Analytics в Google Sheets с помощью аддона Google Analytics Spreadsheet.
    4. Перейти на платный Google Analytics 360.