Как выгрузить сырые данные из Google Analytics

19
2277
Материалы для скачивания

В этой статье мы разберем для чего нужно собирать сырые данные, а также как и с помощью чего их собирать и где хранить.

Для чего собирать сырые данные

Google Analytics — бесспорный лидер среди сервисов веб-аналитики. Он мощный, бесплатный, с ним легко работать, и он дает представление о ключевых KPI онлайн-бизнеса. Однако в системе есть ограничения, которые мешают глубже вникнуть в данные и исследовать их со всех сторон.

  1. Данные, которые вы видите в отчетах Google Analytics, всегда агрегируются, и этот процесс не поддается контролю.
  2. Семплирование, которое может серьезно исказить ваши данные и привести к ошибочным бизнес-решениям.
  3. Отчеты могут содержать только ограниченное количество и только определенные комбинации параметров и показателей.
  4. Лимит на количество строк.
  5. Время обработки данных — если вы используете бесплатную версию Google Analytics, нужно ждать до 24-48 часов, пока система завершит обработку данных.

К счастью, большинство этих проблем можно решить с помощью сырых данных. Здорово, правда? Давайте разберемся, как же получить сырые данные.

 

4 метода как получить сырые данные

Сервис OWOX BI Pipeline

Как выгрузить сырые данные из Google Analytics

Настройте автоматический сбор сырых данных через OWOX BI Pipeline — все хиты, которые передаются с вашего сайта в Google Analytics, параллельно отправляются и в Google BigQuery. Благодаря этому каждый хит доступен в GBQ уже через несколько минут.

Настроить сбор данных

Таблицы с данными о сессиях формируются по собственному алгоритму OWOX BI — этот процесс подробно описан в нашем справочном центре. Таким образом, вы всегда будете получать сырые данные Google Analytics.

Стоимость сервиса — от $115 в месяц, в зависимости от количества уникальных пользователей в проекте. При этом вы можете бесплатно попробовать вcе возможности OWOX BI в течение 14 дней.

Сбор сырых хитовых данных одновременно в Google Analytics и в Google BigQuery даст вам больше преимуществ:

  • Данные о действиях пользователей передаются в Google BigQuery в реальном времени и без ограничений на количество хитов.
  • В Google Analytics количество пользовательских параметров ограничено: 20 в стандартной версии и 200 в платной. Зато в Google BigQuery вы можете собирать сколько угодно кастомных параметров.
  • Вы сможете строить отчеты в GBQ без ограничений на количество и сочетаемость параметров и показателей, за любой период времени.
  • Вы сможете собирать и использовать персональные данные клиентов, в том числе адреса электронной почты и номера телефонов.

Использовать Google Analytics API

Google Analytics дает возможность выгружать данные, используя один или несколько API. К примеру, Core Reporting API, с помощью которого можно получить доступ к нужным вам параметрам и показателям вне интерфейса системы.

Если у вас в Google Analytics настроен сбор пользовательских параметров, то с помощью API вы сможете выгрузить их оттуда и использовать в качестве ключей для объединения информации из GA и других систем. Например, вы можете сохранять User ID из вашей базы и в дальнейшем использовать его для объединения всех действий пользователя в онлайне и офлайне.

Примеры кастомных параметров:

  1. Hit timestamp — пользовательский параметр уровня хита, который показывает точное время, когда произошло событие, в формате yyyy-mm-ddThh:mm:ss со смещением часового пояса.
  2. Session ID — пользовательский параметр уровня сессии. Принимает рандомное уникальное значение и используется для идентификации всех хитов, которые происходили в рамках одной сессии.
  3. Client ID — пользовательский параметр уровня сессии, который передает уникальное значение, присвоенное браузеру и устройству пользователя, из cookie в Google Analytics.
  4. User ID — пользовательский параметр уровня хита, который идентифицирует конкретного пользователя, зарегистрированного на вашем сайте — все его хиты и сессии.

На эту тему у Симо Ахавы есть замечательная статья — как улучшить сбор данных с помощью пользовательских параметров и Google Tag Manager.

Почему API — не панацея

Решат ли Google Analytics API проблему семплирования? Это зависит от объема трафика на вашем сайте. Если трафик невысокий или вы выбрали короткий отчетный период, то семплирование можно обойти. В противном случае вам придется выполнить сотни запросов, чтобы получить данные без выборки.

Кроме того, поскольку информация выгружается из интерфейса Google Analytics, при экспорте применяются все условия обработки данных этой системы, включая совместимость метрик и время обработки. Однако для начинающих аналитиков и маркетологов, а также для небольших проектов API будeт полезны. У Симо Ахавы в блоге есть отличный пост, где он рассмотрел плюсы и минусы схемы данных Google Analytics.

Также не стоит забывать об ограничениях, характерных самим API — например, лимит на количество метрик в запросе или объем данных, которые можно выгрузить в день.

И последнее: вам потребуется место для хранения экспортированных данных. Это подводит нас к другому, более сложному, но эффективному способы выгрузить сырые данные.

Использовать стандартный экспорт из Google Analytics 360 в Google BigQuery

Google Analytics 360 — не дешевый инструмент, но вы получаете то, за что платите, и даже больше. Кроме расширенных функций, пользователям GA 360 доступен нативный экспорт сырых хитовых и сессионных данных в Google BigQuery.

Есть два варианта экспорта в GBQ:

  • Данные экспортируются 3 раза в день. Вы ежедневно получаете одну таблицу с данными Google Analytics за предыдущий день и 3 промежуточных таблицы с данными текущего дня. Также доступны данные из связанных сервисов Google.
  • Данные экспортируются каждые 10-15 минут. Дополнительная плата за услугу составляет $0,05 за каждый ГБ данных. При этом данные из служб, связанных с Google Analytics (DFP, AdSense или AdX) могут экспортироваться только за предыдущий день, как в первом варианте.

Вам нужно один раз связать представление Google Analytics с Google BigQuery, и система экспортирует в облачное хранилище 10 млрд хитов или исторические данные за 13 месяцев. Этого сполна хватит, чтобы избежать семплирования в отчетах.

И вишенка на торте: пользователи Google Analytics 360 получают $500 ежемесячно, которые могут потратить на хранение и обработку данных в Google BigQuery.

Использовать собственное решение

Скопируйте хиты, которые отправляются с вашего сайта в Google Analytics, и разместите их где-нибудь вне GA. Например, можно хранить информацию на своих серверах или прибегнуть к облачному решению. Одни лишь хитовые данные не расскажут вам об источнике, канале и кампании, которые привели пользователя, не покажут ваши рекламные расходы и геоданные клиента. Тем не менее этот подход позволит вам получать необработанные хитовые данные сразу же, как только они передаются с вашего сайта. Вы можете использовать эту информацию для целей, которые не требуют данных уровня сессии. Например, для отправки своевременных транзакционных писем или для выявления проблем на сайте.

Где хранить данные

Независимо от того, какой у вас бизнес (стартап или крупная компания), при выборе хранилища данных нужно учитывать несколько факторов:

  • Возможности обработки данных. Собирать сырые данные — замечательно, но если вы не можете обработать их и извлечь нужную информацию, то это бесполезное занятие.
  • Гибкое масштабирование в соответствии с вашими бизнес-потребностями. По мере роста вашего проекта вы захотите получать от хранилища больше возможностей.
  • Безопасность. Вы должны быть уверены, что драгоценные данные защищены и находятся полностью под вашим контролем.
  • Разумная стоимость.

К счастью, здесь не нужно изобретать велосипед :) У Google уже есть такое облачное хранилище — BigQuery.

Почему Google BigQuery

Google BigQuery позволяет хранить и обрабатывать миллиарды строк (это петабайты данных), используя синтаксис типа SQL. Сервис предоставляет все необходимое для глубокого анализа огромных массивов данных. Высокая скорость обработки? Есть. Масштабируемость? Есть. Полная безопасность данных? Есть.

Кроме того, с Google BigQuery вы платите только за объем собираемых и обрабатываемых данных. Стоимость услуги составляет 0,02 доллара США за каждый сохраненный 1 ГБ и 5 долларов США за каждый обработанный 1 ТБ в месяц. Первые сохраненные 10 ГБ и первый обработанный в месяц 1 ТБ — бесплатны. Согласно условиям, действующим на момент написания этой статьи, все новые пользователи BigQuery получают $300, которые могут потратить в течение 12 месяцев.

Особенности использования Google BigQuery

Если вы не знакомы с Google BigQuery, возможно, придется разобраться с тем, как организованы данные в системе. Прежде всего, помните, что BigQuery поддерживает вложенные и повторяющиеся поля. Поскольку данные Google Analytics имеют иерархическую структуру хитов, сеансов и пользователей, вам нужно будет понять, как запрашивать данные, получать доступ к значениям из этих вложенных или повторяющихся полей. Посмотрите справку по функциям JOIN или FLATTEN — их придется использовать часто. Еще одна вещь, о которой следует знать — некоторые KPI, доступные в интерфейсе Google Analytics, в BigQuery автоматически вычисляться не будут. Например «Всего пользователей», «Всего событий» и т. д.

Резюме

Экспорт сырых данных из Google Analytics проще, чем может показаться на первый взгляд. Инвестировать в готовое решение или создать свое собственное — решать вам. Просто не позволяйте своим драгоценным данным лежать мертвым грузом.

‘‘

Наука строится из фактов, как дом строится из камней. Однако простой набор фактов напоминает науку не более, чем куча камней — дом.

Анри Пуанкаре
математик
Анри Пуанкаре, Математик

Используйте данные, которые вы собираете. Ищите новые идеи, интегрируйте, экспериментируйте. Держите руку на пульсе вашего бизнеса и общайтесь с клиентами, когда это особенно актуально. И помните, что вы всегда можете задать свои вопросы в комментариях — мы с радостью ответим!

P.S. Мы подготовили чек-лист из 20 шагов, которые необходимо выполнить маркетинг-аналитику, чтобы принимать решения, основываясь на правильных и полных данных. Заполните форму, и мы пришлем чек-лист на ваш email.

Получить чек-лист

Использованные инструменты

Вас также могут заинтересовать