Google Cloudにおけるデータレイクとは?Google Cloudでのサービスと概要までご紹介!
- BigQuery
- Cloud
- Cloud Composer
- データレイク
近年、「ビッグデータ」(BigData)という用語を耳にします。直訳すると、「大きなデータ」という意味になりますが、ビッグデータとは、通常のデータベースシステムでは扱うのが困難なほど、膨大な量のデータのことを言います。そのデータには、文字データだけでなく、画像データや動画データなど、さまざまな種類が存在します。
それでは、通常のデータベースシステムでは扱うのが困難なビッグデータは、いったいどのように管理され、利用されているのでしょうか?本書では、それらの膨大なビッグデータの格納先となる「データレイク」という仕組みについて、みてみることにしましょう。
目次
キーワード解説
データリポジトリ
データを一元的に管理するための領域。
構造化データ
どのような種類のデータがどこにどのように格納されるのか、予め定義されているデータリポジトリに対して格納可能なデータ。
構造化データ、非構造化データに関して理解を深めたい方は以下の記事がオススメ。
データの定義からデータレイクとデータウェアハウス(DWH)の違いをわかりやすく解説!
メタ情報
自分自身がどのようなデータであるのかを表す、そのデータに関する付加的情報のこと。
機械学習
人工知能で用いられているアルゴリズム。コンピューター自らが学習し、その学習結果をもとにデータ解析などを行う。
機械学習に関して理解を深めたい方は以下の記事がオススメ。
【徹底解説!】人工知能(AI)の機械学習と深層学習の違いとは?
特徴量
物の特徴を定量的に表した数値。機械学習は、データから特徴量を導き出すことで、対象物を推測する。
ネットワーク・トラフィック
トラフィック(Traffic)とは、交通量のこと。ネットワーク・トラフィックとは、ネットワーク上の通信量を表す。
ワークフロー
ワークフロー(Workflow)は、仕事(Work)の流れ(Flow)のこと。もしくは、それを可視化した図のこと。
ペタバイト
1,024テラバイト。1テラバイトは1,024ギガバイト。
エクサバイト
1,024ペタバイト。
データマイニング
収集したデータをさまざまな角度から観察し、データの相関性を見つけ出すこと。データマイニングの有名な例として、「おむつとビール」の話しがある。何の関連性もなさそうなおむつとビールだが、実際にアメリカで行ったデータマイニングの結果、おむつを買った人はビールを買う傾向があるということが導き出されている。
リレーショナル型データベース
現在、主流となっているデータモデルのデータベース。データを2次元の表で表す。Oracle、MySQL、SQL Server、PostgreSQL、SQLiteなどがリレーショナル型データベースの代表的な存在である。
リレーショナル型データベースに関して理解を深めたい方は以下の記事がオススメです。
RDB(リレーショナルデータベース)とは?NoSQLデータベースとの違いを徹底解説
データレイクとは?
「データレイク」(Data Lake)とは、直訳すると、「データの池」です。文字データや画像データ、動画データなど、ありとあらゆる種類のデータが、次から次へとその池のなかに放り込まれていく状況を想像してみてください。
データレイクとは、ありとあらゆる種類のデータをそのままの状態で管理する、データリポジトリのことを言います。一般的なデータリポジトリとの違いとして、データを構造化する必要がないため、「何も考えず」にデータを格納することができることが挙げられます。
一般的なデータリポジトリの場合、構造化されているデータを格納します。そのため、そのデータ構造に沿ったデータしか格納することができませんが、データを利用する場合は、そのデータ構造に則ってデータを取得できます。しかし、データレイクの場合、データが構造化されていないため、目的とするデータを探し出すのが困難です。
そこで、データレイクに格納されたデータは、何らかのタイミングで、そのデータのメタ情報を記録する仕組みが利用されています。そのメタ情報の作成には、人工知能(AI)の機械学習による特徴量抽出が使われます。
データウェアハウス・データマートの違い
データレイクという用語と似たような用語として、「データウェアハウス」(Data Ware House)というものがあります。データウェアハウスを直訳すると、「データの倉庫」です。
どちらも、データを保管するデータリポジトリですが、根本がまったく違います。前述のとおり、データレイクは、ありとあらゆるデータの種類をそのままの状態で保管するデータリポジトリですが、データウェアハウスは、企業の意思決定などの目的のために、データを再構築し、構造化されたデータを格納するデータリポジトリのことを言います。
また、データウェアハウスと関連した用語として、「データマート」(Data Mart)という用語があります。データマートを直訳すると、「データの市場」です。データマートは、データウェアハウスのなかから、用途に併せて必要なデータのみを利用しやすいように抽出したデータのことを言います。
データマートに関して理解を深めたい方は以下の記事がオススメです。
データ分析基盤の一つであるデータマート概要と設計ポイントをご紹介!
データ分析の歴史から紐解く!データウェアハウスとデータマートの違いを徹底解説
Google Cloud (GCP)のデータレイクで使用するサービス
Google Cloud (GCP)でデータレイクを実現するにあたり、使用するGoogle Cloud (GCP)のサービスについて、説明します。
Cloud Storage
「Cloud Storage」は、Google Cloud (GCP)のストレージサービスです。Cloud Storageは、保存できるデータ量に制限がなく、また最小ファイルサイズの制限もありません。天災によってデータセンターに万が一のことが起きた場合でもデータが失われることがないよう、異なる地域のデータセンターに対してデータを冗長化することも可能です。
また、Cloud Storageは、さまざまなGoogle Cloud (GCP)のサービスからネイティブに利用することが可能です。例として、Cloud Storageに格納されている画像ファイルから、Google Cloud (GCP)の人口知能サービスの一環である画像認識を用いて、画像の検索を行うことができます。
Cloud Storageは従量課金制で、次のようなプランがあります。
STANDARD STORAGE | NEARLINE STORAGE | COLDLINE STORAGE | ARCHIVE STORAGE |
---|---|---|---|
$0.02~(GB 単位/月) | $0.01~(GB 単位/月) | $0.004~(GB 単位/月) | $0.0012~(GB 単位/月) |
利用料金は、Cloud Storageに保存するデータの量や保存する期間の長さ、ネットワーク・トラフィックなどに基づいて課金されます。データへのアクセス頻度が多い場合はSTANDARD STORAGEプランを、逆にアクセス頻度が少ない場合はARCHVE STORAGEプランを選択します。料金プランは、データの使用状況により、より低価格なプランに自動的に移行されます。
BigQuery
BigQueryは、Google Cloud (GCP)のデータウェアハウスです。Cloud Storageに格納された大量のデータは、構造化されておらず、また、さまざまな種類のファイルがそのままの状態で格納されています。そこで、Cloud Storageに格納された大量のデータをGoogle Cloud (GCP)の人工知能サービスによって解析し、その解析結果をBigQueryに格納して利用します。
BigQueryにデータの解析結果を格納することにより、そのデータの解析結果をANSI標準のSQLで取得することができるようになります。BigQueryへのSQLの実行は、DataPortal(データポータル)というツールを用いて行います。DataPortalは、ビッグデータの解析結果を、ほぼリアルタイムに近い速度で検索することができます。
BigQueryは、従量課金制です。下記の料金プランは、米ドルで支払う場合のものです。毎月1TBまでは、無料で利用することが可能です。
項目 | 料金 |
---|---|
ストレージ | GB あたり $0.02/月 GB あたり $0.01/月(長期保存の場合) |
ストリーミング挿入 | 200 MB あたり $0.01 |
データの読み込み、コピー、エクスポート(メタデータ オペレーション) | 無料 |
BigQueryに関して理解を深めたい方は以下の記事がオススメです。
BigQueryの概要を知りたい方にオススメの記事
超高速でデータ分析できる!専門知識なしで扱えるGoogle BigQueryがとにかくスゴイ!
ビッグデータの保存先はGoogle Cloudで決まり! BigQueryでデータを管理・分析のすすめ
クラウドベンダー間のデータウェアハウス(DWH)を比較したい方にオススメの記事
クラウドDWH(データウェアハウス)って何?AWS,Azure,GCPを比較しながら分析の手順も解説!
BigQueryの深いところまで知りたい方にオススメの記事
BigQueryで考慮すべきセキュリティとその対策を一挙ご紹介!
【トップゲート主催】ゲーム業界様向けGCP活用のポイント 〜BigQuery編〜
Cloud Composer
Cloud Composerは、Google Cloud (GCP)上でApache Airflowというワークフロー管理システムを稼働するためのサービスです。Apache Airflowを使えば、ワークフローを記述したり、また記述したワークフローの実行や監視を一元化することができます。Apache Airflowは、有向非巡回グラフ(DAG:Directed acyclic graph)というグラフを用いてワークフローを定義します。1つのDAGに対して複数のタスクを定義し、タスク間の依存関係、およびタスクのスケジューリングを行います。
Cloud Composerも、他のGoogle Cloud (GCP)サービス同様、従量課金制です。Cloud Composerでは、その構成要素として複数のGoogle Cloud (GCP)プロダクトを使用するため、複数の料金単位が用意されています。Cloud Composerの料金は分単位で請求されます。
Google Cloud (GCP)でデータレイクを実装する例
Google Cloud (GCP)でデータレイクを実装する例について、みてみましょう。Google Cloud (GCP)のデータレイクは、データを格納するデータリポジトリ(Cloud Storage)と、データのメタ情報を構造化して格納したデータリポジトリ(BigQuery)を分離します。
Cloud Storageに格納されているデータは、それらを利用しやすい形にするため、メタ情報の取得やデータマイニングが行われます。その結果は、構造化されてBigQueryに格納し、データウェアハウスとして利用されます。
メタ情報の取得やデータマイニングは、Cloud Composerにより、定期的に実行することができます。BigQueryに格納された構造化データは、よりユーザーが利用しやすい形にするため、定期的にデータマートに変換することもできます。これもCloud Composerのワークフローによってスケジューリングします。
従来のデータウェアハウスとの違いは、あらかじめ構造化されたデータからビジネスの分析のために使用するデータを抽出するため、拡張性がないことが挙げられます。しかし、Cloud StorageとBigQueryを利用したデータウェアハウスの場合、人工知能がデータからあらたな特徴を見出すことができれば、それがあらたなデータの検索条件として利用することができます。
まとめ
長年、データベースの主流となっていたリレーショナル型データベースですが、昨今の大規模情報化社会において、「リレーショナル型データベースは、ビッグデータに弱い」という欠点が見えてきました。これは、パソコンだけでなくスマートフォンやタブレット端末から、いつでもどこでもかんたんにビッグデータにアクセスできるようになった現代のクラウド社会においては、かなり重大な欠点です。
また、リレーショナル型データベースでは、2次元表で構成されるテーブルにデータを格納する必要があり、そのテーブル構造に沿うようにデータを構造化する必要があります。その点、データレイクは、とりあえず、データをそのままデータリポジトリに格納しておき、後で随時、構造化されたデータウェアハウスにメタ情報を格納して利用しよう、という考え方です。リレーショナル型データベースと比べ、非常に柔軟性のある考え方です。
今まで、構造化されていなかったために利用できなかったさまざまな形式のデータが、今後、データレイクに蓄積することで、さまざまな局面で利用されることが期待されます。
リレーショナル型データベースが発案される以前は、「階層型データベース」や「ネットワーク型データベース」などというデータモデルが存在しましたが、データモデル(データ構造)という概念さえ存在しない新たなデータの格納方法と利用方法が、今後大きく飛躍することは間違いないでしょう。
弊社トップゲートでは、Google Cloud (GCP) 利用料3%OFFや支払代行手数料無料、請求書払い可能などGoogle Cloud (GCP)をお得に便利に利用できます。さらに専門的な知見を活かし、
- Google Cloud (GCP)支払い代行
- システム構築からアプリケーション開発
- Google Cloud (GCP)運用サポート
- Google Cloud (GCP)に関する技術サポート、コンサルティング
など幅広くあなたのビジネスを加速させるためにサポートをワンストップで対応することが可能です。
Google Workspace(旧G Suite)に関しても、実績に裏付けられた技術力やさまざまな導入支援実績があります。あなたの状況に最適な利用方法の提案から運用のサポートまでのあなたに寄り添ったサポートを実現します!
Google Cloud (GCP)、またはGoogle Workspace(旧G Suite)の導入をご検討をされている方はお気軽にお問い合わせください。
また、弊社トップゲートでは、Google 技術を利用したアプリケーション開発に関するコンサルティングサービスを行っております。まだ形になっていないアイディアも実現できるような形へ具現化するお手伝いもしておりますので、お気軽にお問い合わせください。ぜひ詳細はリンク先にて!
コンサルティングの詳細はこちら
Google Cloud (GCP)でデータレイクを構築しようと考えている方におすすめの記事は以下です。
Google Cloud (GCP) で構築できる「データレイク」とは?概要、メリット、構築方法、ユースケースまで徹底解説!
メール登録者数3万件!TOPGATE MAGAZINE大好評配信中!
Google Cloud(GCP)、Google Workspace(旧G Suite) 、TOPGATEの最新情報が満載!