2020.02.04
【書籍紹介】「Google Cloud Platform 実践ビッグデータ分析基盤開発 ストーリーで学ぶ Google BigQuery 」
- Cloud
- エンジニア
- 書籍紹介
目次
トップゲートのエンジニアが Google BigQuery 本を発刊!!
BigQuery は、Dremel という Google の社内データ解析ツールをサービスとして公開したものです。
Google 社内ではクロールした Web のドキュメントの解析、スパム解析、日々ユーザーから送られてくる大量のアプリケーションのインストールデータの解析など、多種多様なタスクをこなすために使われています。
その処理速度は1000億行のデータセットに対してインタラクティブに数十秒で結果を返してしまう程です。
本書では、社内に蓄積されているビッグデータを、新入社員が BigQuery を駆使してその優れた機能に感動しながらも悪戦苦闘し、分析基盤として利用していくサンプルケースを通して、BigQueryの利用方法を具体的に解説しています。
まずは気楽に物語を楽しみながら、登場人物達と共に BigQuery や関連する GCP サービスについて理解を深めていただければ幸いです。
内容紹介
【Chapter.1】人物紹介とプロジェクト概要
- ビッグデータ活用プロジェクト始動!
- 登場人物紹介
- データ分析の要件を決める
【Chapter.2】BigQueryによるデータ分析
- BigQuery を使ってみよう
- BigQuery のコンソール画面
- クエリ可能なデータ量の上限を設定
- データの読み込み
- データの準備
- データセットの作成
- テーブルの作成
- データの加工
- データの可視化
- データポータルとの接続
- Google スプレッドシートとの接続
- その他のデータの読み込み方法
- bqコマンド
- Google Cloud Storage
- 複数ファイルのデータ読み込み
- Google スプレッドシートをクエリする/li>
【Chapter.3】BigQueryの基本と特徴
- BigQuery の仕組み
- BigQuery のアーキテクチャ
- カラム指向ストレージ
- ツリーアーキテクチャ
- データ型
- パーティションとクラスタ
- パーティション分割テーブル
- クラスタ化テーブル
- ジョブ
- ビュー
【Chapter.4】パフォーマンスと費用
- BigQuery のチューニング
- 費用・パフォーマンスチューニング共通
- 費用チューニング
- パフォーマンスチューニング
- BigQuery のスロット
- BigQuery をより深く知る
- bq query コマンドのオプション
- BigQuery の割り当て
- BigQueryのセキュリティ
【Chapter.5】データ収集の自動化
- Data Warehouse の構築
- DWH 構築の意義
- アーキテクチャの決定
- データソースと GCP の連携
- データソースから GCS への連携
- GCSからBigQuery へ
- BigQuery Data Transfer Service
- BigQuery 内でデータを Transform する
- ファイルフォーマット
- Schema
- クエリ
- クレンジング
- 履歴テーブル作成
- 分析目的に沿ったテーブルの作成
- ワークフローのオーケストレーション
- Cloud Composer とは?
- 簡単なサンプルを動かして理解する
- 'Operation' を実現する Operator
- DWH 構築のための DAG を作ろう
- モニタリング
- Composer のチューニング
【Chapter.6】ストリーミング処理でのデータ収集
- ストリーミング要件の確認
- アーキテクチャの検討
- マスタとの結合を BigQuery で行うパターン
- マスタとの結合を Dataflow で行うパターン
- アーキテクチャの比較
- ストリーミングパイプラインの実装
- リアルタイムデータのデータ収集
- Dataflow SQL の実装
- 結果の確認