Как загрузить данные в Google BigQuery

174
4950
Материалы для скачивания
978.32 Kb

В нашей статье мы расскажем, какие есть варианты загрузки данных в облачное хранилище Google BigQuery. Мы рассмотрим как простые способы загрузки уже готовых файлов CSV/JSON, так и передачу данных через API и с помощью аддона.

Google BigQuery (GBQ) позволяет вам собирать данные из разных источников в одном хранилище и анализировать их с помощью SQL-запросов. Среди преимуществ использования GBQ стоит также отметить высокую скорость вычислений даже с учетом больших объемов данных и низкую стоимость.

Зачем нужна загрузка данных в единое хранилище? Если вы хотите настроить сквозную аналитику, использовать сырые несемплированные данные для построения отчетов и узнать эффективность своих вложений в маркетинг, то без использования Google BigQuery вам не обойтись.

Если вам необходимо за секунды анализировать терабайты данных, то Google BigQuery однозначно является самым простым и доступным выбором. Подробнее об этом сервисе вы можете узнать, посмотрев короткое видео от Google Developers — What is BigQuery?

Создание набора данных и таблицы

Прежде, чем загружать любые данные, вам нужно создать набор данных и таблицу в Google BigQuery. Для этого на главной странице выбираем ресурс, в котором будем создавать набор данных.

главная страница GBQ

В окне «Создание набора данных» — создаем имя набора данных, выбираем место обработки и срок хранения данных.
Примечание: в случае выбора значения «по умолчанию», физическое место хранения данных не будет определено. А для временных таблиц можно указывать количество дней для хранения таблицы.

создание набора данных

Переходим к созданию таблицы в наборе данных.

Готово! Теперь можно приступить к загрузке данных.

Загрузка данных c помощью Google Sheets (OWOX BI Add-on)

Если вам нужно загрузить данные из Google Sheets в Google BigQuery, то самый простой способ сделать это — установить бесплатный аддон BigQuery Reports от OWOX BI. 

Установить дополнение можно либо напрямую из Google Sheets, либо из магазина Chrome Webstore.

установка дополнения в Google Sheets

После установки появится диалоговое окно с подсказками и разрешением на работу.

стартовое окно OWOX BI BigQuery Reports add-on

Для загрузки данных в хранилище в меню выбираем «Upload data to BigQuery».

загрузка данных в GBQ

Указываем проект, набор данных и название таблицы, в которую будут загружаться данные. И все :)

Несомненным преимуществом OWOX BI BigQuery Reports Add-on является его простота и удобство в работе. Также аддон можно использовать не только для загрузки данных, но и для настройки выполнения отчетов по расписанию.

А для того, чтобы строить отчеты на точных «сырых» данных с учетом всех источников и автоматически загружать их в хранилище Google BigQuery, рекомендуем воспользоваться сервисом OWOX BI Pipeline

С его помощью вы можете настроить автоматический сбор данных из рекламных сервисов, колл-трекинговых и CRM систем. Это позволит вам получить готовые наборы полных данных из выбранных вами источников быстро и легко. 

Выберите источники данных и настройте доступы, а остальное предоставьте OWOX BI.  Благодаря сервису OWOX BI вы сможете строить отчеты на любой вкус и потребность: от расчета ROI, ROPO-эффекта и когортного анализа, до расчетов LTV и RFM-анализа.
Загрузить данные в Google BigQuery вместе с OWOX BI!

Загрузка данных с помощью CSV файлов

Чтобы загрузить данные из CSV файла, в окне «Создать таблицу» выбираем источник данных и используем опцию «Загрузить».

окно создания таблицы в GBQ

После этого следует выбрать файл и определить его тип.

создание таблицы для загрузки данных

Затем мы определяем место назначения (хранения) данных. Указываем название проекта и набора данных.

Примечание: в Google BigQuery доступны на выбор два типа таблиц — в собственном формате и внешние.

Google BigQuery автоматически определит структуру таблицы, но если вы хотите вручную добавить поля, можно воспользоваться как функцией редакции текста, так и кнопкой «Добавить поле».
Примечание: если вы хотите изменить то как Google BigQuery парсит данные из CSV файла, вы можете использовать дополнительные параметры.

дополнительные параметры при загрузке CSV файла

Больше информации о CSV формате можно найти в подробной справке.

Загрузка данных c помощью JSON файлов

Чтобы загрузить данные из JSON файлов, нужно повторить все шаги — создать или выбрать набор данных и таблицу, с которыми вы работаете. 

Загружать JSON файл можно с вашего компьютера, из Google Cloud Storage или с диска.

окно создания таблицы в GBQ

Примечание: больше информации о JSON формате можно найти в подробной справке.

Загрузка данных из Google Cloud Storage

Коротко о главном: Google Cloud Storage — это облачное хранилище, которое позволяет безопасно хранить и передавать данные онлайн. 

Полезные ссылки для работы с сервисом:

Из Google Cloud Storage в Google BigQuery можно загружать файлы таких форматов:

  • Comma-separated values (CSV);
  • JSON (newline-delimited);
  • Avro;
  • Parquet;
  • ORC;
  • Cloud Datastore.
создание таблицы в GBQ

Больше об использовании Сloud Storage для загрузки Big Data можно прочитать в официальной документации.

Также в справке вы можете узнать о лимитах при загрузке данных и необходимых разрешениях для работы с Cloud Storage.

Загрузка данных из других сервисов Google таких, как Google Ad Manager и Google Ads

Для загрузки данных из различных Google-сервисов в первую очередь нужно настроить работу BigQuery Data Transfer Service. Прежде чем его использовать, необходимо выбрать или создать проект данных и, в большинстве случаев, включить биллинг на этом проекте. К примеру, биллинг обязателен для таких сервисов:

  • Campaign Manager;
  • Google Ad Manager;
  • Google Ads;
  • Google Play (beta);
  • YouTube - Channel Reports;
  • YouTube - Content Owner Reports.

Примечание: подробнее о настройках и изменениях биллинга можно прочитать в справке.

Чтобы запустить BigQuery Data Transfer Service, на главной странице в левом меню выберите раздел Transfers.

Примечание: убедитесь, что пользователь, который создает Transfer, обладает правами администратора.

После перехода в следующее окно вам осталось лишь выбрать необходимый вам источник данных.

new BigQuery Data Transfer Service

Примечание: доступ к BigQuery Data Transfer Service можно получить не только из консоли платформы, но и при помощи:

  • сlassic bq_ui;
  • bq command-line tool;
  • BigQuery Data Transfer Service API.

После настройки сервис будет автоматически и регулярно загружать данные в хранилище BigQuery. Однако использовать сервис для выгрузки данных из BigQuery нельзя.

Загрузка данных c помощью API

С помощью Cloud Client Libraries вы можете использовать свой любимый язык программирования для работы с Google BigQuery API.
Примечание: подробнее о загрузке данных с помощью API можно прочитать в справке Google. 

Для начала работы вам нужно создать или выбрать проект, с которым вы будете работать. Затем на главной странице перейти в раздел API.

панель управления Google Cloud Platform

В окне обзор API вы можете включить API и сервисы и выбрать нужный API из библиотеки.

обзор API в Google Cloud Platform

В библиотеке вы можете воспользоваться полем поиск или фильтровать API по категориям.

библиотека API в Google Cloud Platform

Приятный бонус для наших читателей! 

Вы можете использовать набор python-скриптов для автоматизации импорта данных в Google BigQuery от OWOX BI.

В наборе есть скрипты для автоматизации импорта данных в Google BigQuery из таких источников, как:

  • amoCRM;
  • FTP;
  • FTPS;
  • HTTP(s);
  • Intercom;
  • ExpertSender;
  • MySQL;
  • SFTP.

Скачать этот набор можно на Github.

Примечание: узнайте, как использовать язык Python при работе с Google API из видео урока от Google Developers.

Выводы

В нашей статье мы рассмотрели наиболее популярные и востребованные способы загрузки данных в облачное хранилище Google BigQuery. От простой загрузки файла данных до загрузки через API — любой пользователь сможет подобрать себе подходящий вариант для работы.

Полезные ссылки

Использованные инструменты

Вас также могут заинтересовать