Как выгрузить сырые данные из Google Analytics

Материалы для скачивания
1.33 Mb

В этой статье мы разберем, для чего нужно собирать сырые данные о поведении пользователей на сайте, как и с помощью чего их собирать и где хранить.

бонус для читателей

Инструкция по выгрузке сырых данных с сайта

Скачать материал

Содержание

Для чего собирать сырые данные

Google Analytics — бесспорный лидер среди сервисов веб-аналитики. Он бесплатный, с ним легко работать, и он дает представление о ключевых KPI онлайн-бизнеса. Однако в системе есть ограничения, которые мешают глубже вникнуть в данные и исследовать их со всех сторон.

  1. Данные, которые вы видите в отчетах Google Analytics, всегда агрегируются, и этот процесс не поддается контролю.
  2. Семплирование, которое может серьезно исказить ваши данные и привести к ошибочным бизнес-решениям.
  3. Отчеты могут содержать только ограниченное количество и только определенные комбинации параметров и показателей.
  4. Лимит на количество строк.
  5. Время обработки данных — если вы используете бесплатную версию Google Analytics, нужно ждать до 24-48 часов, пока система завершит обработку данных.

К счастью, большинство этих проблем можно решить с помощью сырых данных. Здорово, правда? Давайте разберемся, как же получить сырые данные.

4 способа получить сырые данные

1. Сервис OWOX BI Pipeline

Настройте автоматический сбор сырых данных через OWOX BI Pipeline — все хиты, которые передаются с вашего сайта в Google Analytics, будут параллельно отправляться и в Google BigQuery. Благодаря этому каждый хит будет доступен в GBQ уже через несколько минут.

Вы можете бесплатно попробовать, как OWOX BI собирает сырые данные с сайта

Таблицы с данными о сессиях формируются по собственному алгоритму OWOX BI — этот процесс подробно описан в нашем справочном центре. При этом OWOX BI использует структуру данных, совместимую со структурой Google Analytics, под которую написано множество примеров SQL-запросов. Это сэкономит время вашей команды на подготовку отчетов.

Сбор сырых хитовых данных одновременно в Google Analytics и в Google BigQuery даст вам больше преимуществ:

  • Данные о действиях пользователей передаются в Google BigQuery в реальном времени и без ограничений на количество хитов.
  • В Google Analytics количество пользовательских параметров ограничено: 20 в стандартной версии и 200 в платной. Зато в Google BigQuery вы можете собирать сколько угодно кастомных параметров и строить более глубокие отчеты для детального анализа.
  • Вы сможете строить отчеты в GBQ без семплирования и ограничений на количество и сочетаемость параметров и показателей, за любой период времени.
  • В отличие от Google Analytics, в BigQuery вы сможете собирать и использовать персональные данные клиентов, в том числе адреса электронной почты и номера телефонов.
  • OWOX BI рассчитывает ценность каждой сессии. Благодаря этому вы сможете посчитать ROI/ROAS для новых и вернувшихся пользователей. Оценить эффективность рекламы для разных регионов, товарных групп, посадочных страниц, мобильных версий и приложений.
  • Сервис позволяет ретроспективно обновлять данные о расходах, пользователях и транзакциях, уже загруженные в Google BigQuery. Благодаря этому вы сможете учесть выкупаемость заказов, возвраты после покупки или, к примеру, узнать, что делал новый подписчик на вашем сайте за 30 дней до регистрации.
  • OWOX BI ежедневно сравнивает данные в вашем BigQuery с информацией из Google Analytics и сообщает о значимых расхождениях. Это значит, что вы не потеряете никаких важных данных, чего не могут обеспечить сторонние трекеры.

Подробнее о всех преимуществах сбора данных с помощью OWOX BI читайте в статье:

Как настроить сбор сырых данных с сайта в Google BigQuery с помощью OWOX BI:

  1. Войдите в OWOX BI, используя свой аккаунт Google.
  2. Выберите, какие данные вы хотите собирать в Google BigQuery, выдайте доступы и создайте поток стриминга.
  3. Скопируйте код отслеживания и разместите его на сайте удобным вам способом.

Вы можете скачать подробную инструкцию о том, как настроить выгрузку сырых данных с сайта в BigQuery.

бонус для читателей

Инструкция по выгрузке сырых данных с сайта

Скачать материал

Полезные ссылки

2. Использовать Google Analytics API

Google Analytics дает возможность выгружать данные, используя один или несколько API. К примеру, Core Reporting API, с помощью которого можно получить доступ к нужным вам параметрам и показателям вне интерфейса системы.

Если у вас в Google Analytics настроен сбор пользовательских параметров, то с помощью API вы сможете выгрузить их оттуда и использовать в качестве ключей для объединения информации из GA и других систем. Например, вы можете сохранять User ID из вашей базы и в дальнейшем использовать его для объединения всех действий пользователя в онлайне и офлайне.

Примеры кастомных параметров:

  1. Hit timestamp — пользовательский параметр уровня хита, который показывает точное время, когда произошло событие, в формате yyyy-mm-ddThh: mm: ss со смещением часового пояса.
  2. Session ID — пользовательский параметр уровня сессии. Принимает рандомное уникальное значение и используется для идентификации всех хитов, которые происходили в рамках одной сессии.
  3. Client ID — пользовательский параметр уровня сессии, который передает уникальное значение, присвоенное браузеру и устройству пользователя, из cookie в Google Analytics.
  4. User ID — пользовательский параметр уровня хита, который идентифицирует конкретного пользователя, зарегистрированного на вашем сайте — все его хиты и сессии.

На эту тему у Симо Ахавы есть замечательная статья — как улучшить сбор данных с помощью пользовательских параметров и Google Tag Manager.

Почему API — не панацея

Решат ли Google Analytics API проблему семплирования? Это зависит от объема трафика на вашем сайте. Если трафик невысокий или вы выбрали короткий отчетный период, то семплирование можно обойти. В противном случае вам придется выполнить сотни запросов, чтобы получить данные без выборки.

Кроме того, поскольку информация выгружается из интерфейса Google Analytics, при экспорте применяются все условия обработки данных этой системы, включая совместимость метрик и время обработки. Однако для начинающих аналитиков и маркетологов, а также для небольших проектов API будeт полезны. У Симо Ахавы в блоге есть отличный пост, где он рассмотрел плюсы и минусы схемы данных Google Analytics.

Также не стоит забывать об ограничениях, характерных самим API — например, лимит на количество метрик в запросе или объем данных, которые можно выгрузить в день.

И последнее: вам потребуется место для хранения экспортированных данных. Это подводит нас к другому, более сложному, но эффективному способы выгрузить сырые данные.

3. Использовать стандартный экспорт из Google Analytics 360 в Google BigQuery

Google Analytics 360 — не дешевый инструмент, но вы получаете то, за что платите, и даже больше. Кроме расширенных функций, пользователям GA 360 доступен нативный экспорт сырых хитовых и сессионных данных в Google BigQuery.

Есть два варианта экспорта в GBQ:

  • Данные экспортируются 3 раза в день. Вы ежедневно получаете одну таблицу с данными Google Analytics за предыдущий день и 3 промежуточных таблицы с данными текущего дня. Также доступны данные из связанных сервисов Google.
  • Данные экспортируются каждые 10-15 минут. Дополнительная плата за услугу составляет $0,05 за каждый ГБ данных. При этом данные из служб, связанных с Google Analytics (DFP, AdSense или AdX) могут экспортироваться только за предыдущий день, как в первом варианте.

Вам нужно один раз связать представление Google Analytics с Google BigQuery, и система экспортирует в облачное хранилище 10 млрд хитов или исторические данные за 13 месяцев. Этого сполна хватит, чтобы избежать семплирования в отчетах.

И вишенка на торте: пользователи Google Analytics 360 получают $500 ежемесячно, которые могут потратить на хранение и обработку данных в Google BigQuery.

Узнать больше о Google Analytics 360

4. Использовать собственное решение

Скопируйте хиты, которые отправляются с вашего сайта в Google Analytics, и разместите их где-нибудь вне GA. Например, можно хранить информацию на своих серверах или прибегнуть к облачному решению. Одни лишь хитовые данные не расскажут вам об источнике, канале и кампании, которые привели пользователя, не покажут ваши рекламные расходы и геоданные клиента. 

Тем не менее этот подход позволит вам получать необработанные хитовые данные сразу же, как только они передаются с вашего сайта. Вы можете использовать эту информацию для целей, которые не требуют данных уровня сессии. Например, для отправки своевременных транзакционных писем или для выявления проблем на сайте.

Где хранить данные

Независимо от того, какой у вас бизнес (стартап или крупная компания), при выборе хранилища данных нужно учитывать несколько факторов:

  • Возможности обработки данных. Собирать сырые данные — замечательно, но если вы не можете обработать их и извлечь нужную информацию, то это бесполезное занятие.
  • Гибкое масштабирование в соответствии с вашими бизнес-потребностями. По мере роста вашего проекта вы захотите получать от хранилища больше возможностей.
  • Безопасность. Вы должны быть уверены, что драгоценные данные защищены и находятся полностью под вашим контролем.
  • Разумная стоимость.

К счастью, здесь не нужно изобретать велосипед:) У Google уже есть такое облачное хранилище — BigQuery.

Почему Google BigQuery

Google BigQuery позволяет хранить и обрабатывать миллиарды строк (это петабайты данных), используя синтаксис типа SQL. Сервис предоставляет все необходимое для глубокого анализа огромных массивов данных. Высокая скорость обработки? Есть. Масштабируемость? Есть. Полная безопасность данных? Есть.

Кроме того, с Google BigQuery вы платите только за объем собираемых и обрабатываемых данных. Стоимость услуги составляет 0,02 доллара США за каждый сохраненный 1 ГБ и 5 долларов США за каждый обработанный 1 ТБ в месяц. Первые сохраненные 10 ГБ и первый обработанный в месяц 1 ТБ — бесплатны. Согласно условиям, действующим на момент написания этой статьи, все новые пользователи BigQuery получают $300, которые могут потратить в течение 12 месяцев.

Особенности использования Google BigQuery

Если вы не знакомы с Google BigQuery, возможно, придется разобраться с тем, как организованы данные в системе. Прежде всего, помните, что BigQuery поддерживает вложенные и повторяющиеся поля. Поскольку данные Google Analytics имеют иерархическую структуру хитов, сеансов и пользователей, вам нужно будет понять, как запрашивать данные, получать доступ к значениям из этих вложенных или повторяющихся полей. 

Посмотрите справку по функциям JOIN или FLATTEN — их придется использовать часто. Еще одна вещь, о которой следует знать — некоторые KPI, доступные в интерфейсе Google Analytics, в BigQuery автоматически вычисляться не будут. Например «Всего пользователей», «Всего событий» и т. д.

Резюме

Экспорт сырых данных из Google Analytics проще, чем может показаться на первый взгляд. Инвестировать в готовое решение или создать свое собственное — решать вам. Просто не позволяйте своим драгоценным данным лежать мертвым грузом.

‘‘

Наука строится из фактов, как дом строится из камней. Однако простой набор фактов напоминает науку не более, чем куча камней — дом.

Анри Пуанкаре,
математик

Используйте данные, которые вы собираете. Ищите новые идеи, интегрируйте, экспериментируйте. Держите руку на пульсе вашего бизнеса и общайтесь с клиентами, когда это особенно актуально. И помните, что вы всегда можете задать свои вопросы в комментариях — мы с радостью ответим!

Запись вебинара
Как избежать семплирования в Google Analytics

Использованные инструменты

Часто задаваемые вопросы

Открыть все Закрыть все
  • Зачем собирать сырые данные?

    В Google Analytics есть ограничения, которые мешают глубже вникнуть в данные и исследовать их со всех сторон:
    • Данные в отчетах всегда агрегируются.
    • Семплирование может исказить данные в отчете и привести к ошибочным решениям.
    • Отчеты содержат ограниченное количество параметров и показателей.
    • Лимит на количество строк.
    • Нужно ждать до 24-48 часов, пока система завершит обработку данных.
    С помощью сырых данных можно обойти все перечисленные ограничения.
  • Как получить сырые данные из Google Analytics?

    1. Собирать сырые данные с помощью OWOX BI — все хиты, которые передаются с вашего сайта в Google Analytics, параллельно отправляются и в Google BigQuery.
    2. Использовать Google Analytics API, чтобы получить доступ к нужным вам параметрам и показателям вне интерфейса системы.
    3. Настроить стандартный экспорт из Google Analytics 360 в Google BigQuery.
    4. Использовать собственное решение: копировать хиты с сайта и сохранять их на своих серверах или в облачном хранилище.
  • Почему стоит собирать данные в Google BigQuery?

    • Сервис позволяет хранить и обрабатывать миллиарды строк (это петабайты данных) с помощью SQL.
    • Высокая скорость обработки.
    • Масштабируемость.
    • Полная безопасность данных.