効率的なデータ管理を実現!データウェアハウス、データマート、データレイクの特徴と違いとは?
- BigQuery
- Cloud
- DWH
- データマート
近年、5G や IoT などの新技術の到来により、企業が保有するデータ量は爆発的に増加しています。これらのデータをうまく活用することが、会社の生産性を向上させるための鍵であると言えます。
データ活用の分野において、「データウェアハウス」、「データマート」、「データレイク」といった言葉を聞いたことがあると思いますが、それぞれの違いを正確に説明できる方は少ないのではないでしょうか。
本記事では、データウェアハウス、データマート、データレイクの特徴やそれぞれの違いを詳しくご説明します。いずれも企業成長において欠かすことのできない大切なものです。ぜひ、最後までご覧ください。
目次
データウェアハウスとは?
役割
データウェアハウスとは「データの倉庫」の意味で、データの利活用のために、膨大なデータを保存しておくためのシステムです。データ分析を行うためにデータウェアハウスに格納されるデータは、極力何らかの形で整理、整形されている必要があります。
データウェアハウスは、データの分析を目的としているため、アプリケーションで利用しなくなったアクセスログなどの膨大な情報についても格納されます。また、分析を行うために一度格納されたデータは、滅多に消されることはありません。データウェアハウスの英語である Data Ware house を略して DWH と呼ばれることも多くなっています。
メリット
データウェアハウスの最大のメリットは、データ収集を効率化できることです。企業が保有する様々なデータを集積し、整理された状態で保管することができます。様々なデータが1箇所に蓄積されているため、データウェアハウスから即座に情報を取得することが可能になります。
さらにデータウェアハウスは、時系列順でデータを保管することができます。過去のデータが消えたり上書きされることはなく、時系列ですべてのデータを管理できるため、より正確なデータ分析が可能になります。このようにデータウェアハウスには様々なメリットがあり、企業データの保管・分析を効率化し、企業のスムーズな意思決定を実現します。
デメリット
データウェアハウスは高機能なサービスであるが故に、導入自体が目的になってしまうことがあります。せっかくデータウェアハウスを導入しても、データを保管しなければ意味がありません。手段と目的を間違えないように注意する必要があります。
また、データウェアハウスはデータの保管・蓄積がメインの機能なので、分析や可視化をするためには、別途 BI ツールなどを準備しなければいけません。
データウェアハウスに関しては、以下の記事が参考になります。
クラウドDWH(データウェアハウス)って何?AWS,Azure,GCPを比較しながら分析の手順も解説!
データウェアハウス(DWH)とは?メリットや活用例まで一挙に紹介
データマートとは?
役割
データマートとは、データウェアハウスから特定の目的をもって、データを抽出・あるいは加工して保管するデータ保管システムです。データマートは「小売店(mart)」が語源となっており、小型のデータウェアハウスと考えるといいでしょう。
そのため、データウェアハウスと同様に、企業が保有する様々なデータを集積し、整理された状態でデータマートに保管します。データ活用の重要性が高まっている現代においては、とても大切なツールの一つとなっています。
メリット
データマートはデータウェアハウスからデータを抽出して構築されるため、リソースの競合が発生しにくくなります。また、目的のデータだけを抽出するため、データ分析を行う部門以外でも利用しやすい点が大きな特徴です。
さらに、データウェアハウスから必要な情報だけを抽出してデータマートを構築すれば不要なデータを省けるため、目的に沿った分析を効率的に行うことが可能になります。必要なデータのみに絞っているため、データ量を必要最低限に抑えることができ、データの処理速度を高められる点もデータマートのメリットだと言えます。
デメリット
データウェアハウスには、数 TB~ペタバイト級のデータを格納することもあり、膨大なデータを一元的に保管・管理することができます。しかし、データマートは数 GB ~数百 GB 程度のデータ量にしか対応できないことが多く、膨大なデータを扱う場合には不向きだと言えます。
データマートに関しては、以下の記事が参考になります。
データ分析基盤の一つであるデータマート概要と設計ポイントをご紹介!
効率的なデータ活用を実現!データマートの作り方を7ステップでご紹介!
データレイクとは?
役割
データレイクとは、ビッグデータをそのまま(生データのまま)格納できるストレージリポジトリのことです。特に、音声や動画、 SNS のログなどを含むあらゆる形式のデータ(非構造化データ)を、そのままの形式で貯めておけるのが利点です。ゆえに、データレイクに保存されるデータは、整理された状態で保存はされません。
また、保存の目的も明確ではありません。「あとで使うかもしれないからとっておこう」というような動機でデータが保存されています。従って、データレイクの構築期間はほとんど時間がかかりません。例えば、 AWS や Google Cloud (GCP)などのパブリッククラウドで利用できるストレージサービス( S3 や Cloud Storage )を利用することで、短時間に構築が可能です。
メリット
データレイクは様々な種類のデータを形式を変えずに一箇所に保管できるため、分析までの時間を短縮することが可能になります。人工知能(AI)と組み合わせることで複雑なデータ分析を行うことも可能であり、企業の経営戦略を考える上で重要な判断材料になります。
また、データレイクはビッグデータの処理を主眼に置いて開発されたサービスです。ビッグデータとは「膨大かつ多様性に富み、リアルタイム性などを有している非構造化データ」を指す言葉です。本来、ビッグデータの処理は時間も手間もかかりますが、データレイクは元データを変換することなく、バッチまたはストリーミングでデータレイク上にデータを移すことが可能なため、生産性向上や業務効率化を実現することができます。
ビッグデータに関心のある方は以下の記事が参考になります。
ビッグデータとは何か?7業種のクラウドによるデータ活用事例をご紹介!
デメリット
データレイクは形式を問わずにデータを保管できる点が大きな特徴ですが、適切に管理を行わなければ、大量のデータが散らばって存在するだけの意味のない場所になってしまいます。
データが整理されていない状態では、欲しいデータを検索することは困難であり、本来のデータレイクの目的を果たすことはできないため、正しく使うための運用ルールを決めておくことが大切です。
データレイクに関しては、以下の記事が参考になります。
Google Cloudにおけるデータレイクとは?Google Cloudでのサービスと概要までご紹介!
データウェアハウス・データマート・データレイクの特徴と違い
ここまで、データウェアハウス、データマート、データレイクについて、それぞれ順番に解説しました。それでは、3つのサービスにはどのような違いがあるのでしょうか?
要素ごとに分けて、各サービスの特徴と違いを見ていきましょう。
保存データ
データウェアハウスとデータマートは整理されたデータ(構造化データ)のみを保管するのに対して、データレイクは整理されていないデータ(非構造化データ)も含めて、すべての生データを保管する場所となっています。
構築期間
一般的には、データウェアハウスは長い構築期間が必要になりますが、データマートとデータレイクは短期間で構築可能です。データウェアハウスと同様にデータレイクも膨大なデータを保管しますが、整理せずに生データをそのまま保管するため、構築期間は短くなります。
目的
データウェアハウスとデータマートは、データ分析やデータ活用など、何かしらの目的を持って構築されますが、データレイクは単なる「データの置き場所」であるため、目的が存在しないケースも多くなっています。
ユーザー
データウェアハウスとデータマートは、目的を持って構築されるものであるため、利用するユーザーが特定されていることが多いです。その一方で、データレイクは社内のデータを一元的に保管する場所であるため、不特定多数のユーザーが利用します。
容量
データウェアハウスとデータレイクは、数 TB~ペタバイト級のデータを格納することもあり、膨大なデータを一元的に保管することができます。しかし、データマートは数 GB~数百 GB 程度のデータ量にしか対応できないことが多く、容量は比較的小さくなります。
まとめ
以下、3つの違いをわかりやすく表にまとめます。
データウェアハウス | データマート | データレイク | |
---|---|---|---|
保存データ | 構造化データ | 構造化データ | 構造化データと非構造化データ |
構築期間 | 長い | 短い | 短い |
目的 | 明確な目的がある | 明確な目的がある | 明確な目的がない |
ユーザー | 限定的 | 限定的 | 不特定多数 |
容量 | 大きい | 小さい | 大きい |
このように、3つのツールはそれぞれ異なる特徴を持っています。各ツールごとの違いを正しく理解し、自社の状況に合わせて最適なものを選択することが大切です。
データ活用にオススメのサービス(ツール)のご紹介
データウェアハウス、データマート、データレイクは、いずれも企業のデータ活用を支えるツールです。最後に、企業がデータ活用を推進する上で、オススメのサービスをご紹介します。
今回ご紹介するデータ活用サービスは BigQuery というデータウェアハウスのサービスです。 BigQuery は、 Google Cloud (GCP)に内包されているサービスであり、通常では長い時間かかるクエリを、数 TB (テラバイト)、数 PB (ペタバイト)のデータに対して、数秒もしくは数十秒で終わらせることができます。
クラウドなため、サーバーレスでスケーラビリティがあり、非常にコストパフォーマンスに優れています。他の多彩な Google Cloud (GCP)の提供するサービスともシームレスに連携もでき、扱いやすいサービスの一つです。
以下、 BigQuery がオススメな理由を順番にご説明します。
多くの機能を兼ね備えている
BigQuery はデータを保管するデータウェアハウスとしての役割はもちろんのこと、他にも様々な機能を搭載しています。 ETL の領域も一部カバーしており、分析に必要なデータ加工を行うことができます。例えば、膨大な元データに対する検索のクエリ結果を BigQuery のテーブルとして出力することが可能です。
さらに Hadoop や Cloud Dataflow といったデータ処理エンジンと連携することができるため、複雑なデータ加工や、リアルタイムなデータストリーミング分析などを実現することが可能です。
ETL に関心のある方は以下の記事がオススメです。
Google の ETL サービス「 Dataflow 」とは?概要、特徴、できること、料金体系まで徹底解説!
データの処理速度が速い
BigQuery の強みとして、データ処理が高速な点が挙げられます。通常の分析サービスであれば、GB(ギガバイト)程度であれば問題なく分析できますが、TB(テラバイト)規模になるとデータがなかなか返ってこないことが多いです。
しかし、 BigQuery は、さらにその上の PB (ペタバイト)規模のデータも高速で分析して、解を返すことができます。約3 GB (ギガバイト)のデータ処理の要した時間は1.2秒という驚異のスピードです。(2020年5月段階)
【参考記事】
【トップゲート主催】StudyJam Google Cloud Platform 無料ハンズオンラボの体験レポート
データベースの専門知識がなくても扱える
通常、データウェアハウスのデータベースは特にクエリ用途などがある場合には必ずチューニングが必要です。テーブルや各種領域、インデックスなどに対し、最適な計算・シミュレーションなど必要です。当然データベースのスペシャリストが必要で、スペシャリストがいるか否かなども、チューニングパフォーマンスに影響します。
ところが、BigQuery はそれを必要としません。従来のデータベース概念とは異なり、今までデータベースでのクエリでは必須だったインデックスすら必要としません。つまりデータベースの専門知識がなくても高速クエリが可能となっています。
コストパフォーマンスが高い
BigQuery はコストパフォーマンスが圧倒的に優れています。利用料金の目安も 1TB (テラバイト)500円程度とものすごくリーズナブルであるため、愛用者が多いです。データ量が分析開始前にわかり、事前に処理に要する目安料金がわかり安心してサービス利用可能です。
いくら高速なサービスがあっても扱いにくくてコストが高いものであれば、なかなか拡まらないと考えられます。しかし、 BigQuery は扱いやすくかつコストも安いため、総合的に見て優れたサービスであると言えます。
BigQuery に関しては、以下の記事が参考になります。
BigQueryで考慮すべきセキュリティとその対策を一挙ご紹介!
【トップゲート主催】ゲーム業界様向けGCP活用のポイント 〜BigQuery編〜
【GCP入門編・第12回】 BigQuery を使って気軽にビッグデータの解析を行ってみよう!
まとめ
本記事では、データウェアハウス、データマート、データレイクの特徴やそれぞれの違いを詳しくご説明しました。
今回ご紹介した3つのツールは、いずれも企業のデータ活用を促進する重要なツールです。これらを活用することで、自社のデータを効率的に保管・整理でき、将来の戦略立案や意思決定に役立てることができます。
データウェアハウス、データマート、データレイクは「データを保管する場所」という意味では共通していますが、それぞれ異なる特徴・役割を持っているため、各ツールの違いを正しく理解して、自社に最適なものを選択することが大切です、
そして、データ活用を推進したいのであれば Google Cloud (GCP)の BigQuery がオススメです。多彩な機能や高速データ処理など、企業にとって嬉しいポイントが多数存在します。
本記事を参考にして、 Google Cloud (GCP)の導入および BigQuery の活用を検討してみてはいかがでしょうか。
弊社トップゲートでは、Google Cloud (GCP) 利用料3%OFFや支払代行手数料無料、請求書払い可能などGoogle Cloud (GCP)をお得に便利に利用できます。さらに専門的な知見を活かし、幅広くあなたのビジネスを加速させるためにサポートをワンストップで対応することが可能です。
Google Workspace(旧G Suite)に関しても、実績に裏付けられた技術力やさまざまな導入支援実績があります。あなたの状況に最適な利用方法の提案から運用のサポートまでのあなたに寄り添ったサポートを実現します!
Google Cloud (GCP)、またはGoogle Workspace(旧G Suite)の導入をご検討をされている方はお気軽にお問い合わせください。
メール登録者数3万人!TOPGATE MAGAZINE大好評配信中!
Google Cloud(GCP)、Google Workspace(旧G Suite) 、TOPGATEの最新情報が満載!