データ分析の歴史から紐解く!データウェアハウスとデータマートの違いを徹底解説
- DWH
- データマート
- データレイク
- データ分析
近年、データ活用の重要性が増大してきています。データを活用することで、経営判断や顧客満足度向上に利用するための様々な取り組みが可能だからです。
データを活用するためには、目的に応じてデータを保管しておくシステムを構築しておく必要があります。データを保管しておくシステムには、以下のような種類があります。
- データレイク
- データマート
- データウェアハウス(DWH)
これらのシステムは、それぞれの役割は大きく違っています。それぞれ、どのような意味で、どのような役割があるのでしょうか?
本記事では、『データウェアハウス(DWH)』と『データマート』の違いについてみていきます。
目次
データ分析のあゆみ
『データウェアハウス(DWH)』と『データマート』を理解するためには、データ分析の方法や、データの保管方法がどのような進歩を遂げて来たかを知っておくと理解しやすいです。
データ分析は、分析対象のデータ量や、分析を行うコンピュータの進歩、分析を行う手法(機械学習やBIツール、Deep Learningなど)の多様化によって、様々な進歩を遂げてきました。
データ分析がどのような進歩を歩んできたのか、具体的にご紹介します。
データ分析の始まり
初期のデータ分析は、エクセルやGoogleスプレッドシートのような表計算ソフトやCSVファイルをベースに実行されていました。このころは、分析対象のデータ量も少なく、分析を行うコンピュータも高性能なコンピュータは限られていました。
また、様々な企業も、データ分析をおこなう必要性については認識があまりなく、データ分析による経営判断や顧客獲得をおこなう企業は、当時はあまり存在しませんでした。
従って、表計算ソフトなどに記載されたデータの統計情報取得や、グラフ化などがデータ分析の目的になっていました。
データベースをベースにしたデータ分析の始まり
分析用のデータが増え、データ分析の目的や手法が多様化すると、表計算ソフトでは対応ができなくなります。大量のデータを扱うと表計算ソフト自体がダウンしてしまい、データが消えるなど、そもそも表計算ソフトがデータ分析に特化していないためです。
また、大量のデータを追記するにも、1行、セルずつ手動で入力する必要があり、大変な手間がかかりました。そこで、リレーショナルデータべースによるデータ分析が行われるようになります。データベースは、表計算ソフトと違い、データの操作や追記に特化しています。
また、入力したデータが消えないように、データの操作をログとして記録し、サーバーがダウンした場合などもデータをある程度リカバリできるようになります。また、データ分析に特化したデータベースも登場してきます。
例えば、通常の行志向のデータベースではなく、列志向のデータベースがそれにあたります。
データウェアハウス(DWH)の登場
2000年代になると、様々な企業が、データ分析について以下のようなメリットを認識し、データ活用競争がおこります。
- 企業戦略の立案につながる。
- 顧客の獲得や満足度向上につながる。
例えば、アメリカのウォルマートなどは、データ分析を行うことで、ビールと乳児用の紙おむつの売り上げに相関関係を発見し、ビールと乳児用の紙おむつの陳列棚を近くにして売り上げ向上を実現しました。
このように、データ分析を行って商品の陳列を決め、売り上げの向上に活用するなど、データ分析を行うことによるメリットや成功事例が多々紹介されるようになりました。これにより、世界中の企業がデータ分析について必要性を認識し、データ分析を行うために巨大なデータを保管するシステムとして、データウェアハウス(DWH)が登場します。
データウェアハウス(DWH)とは、ウェアハウス(倉庫)が語源になっていて、データをすぐに取り出して分析できるように、整理し、保存しておく場所のことです。そのため、保存されるデータは主に構造化データが保管されます。構造化データとは、エクセルのように「列」「行」があり、「どこに何があるか」が決められているデータのことです。
そのため、構造化データは加工や分析が容易であるという特徴があります。
データウェアハウス(DWH)のデメリット
データウェアハウス(DWH)の登場により、企業のデータ分析環境が整い、データ分析が盛んに行われるようになりました。ただし、データウェアハウス(DWH)を活用していくと、データウェアハウス(DWH)にもデメリットが目立つようになっていきます。以下のようなデメリットです。
- 当初の目的外に利用しにくい
- 複数の部門が利用しにくい
以下で詳しく説明します。
当初の目的外に利用しにくい
データウェアハウス(DWH)は目的をもって設計がなされています。例えば、どのようなデータを格納し、「どのようなアウトプットが必要とされるか」を、事前に決めて設計します。そのため、設計当初想定していなかった、目的外の利用にはあまり向かないというデメリットがあります。
複数の部門が利用しにくい
1つ目のデメリットと重なりますが、データウェアハウス(DWH)は、目的が異なる複数の部門利用するには向いていません。目的が異なる場合は、蓄積するデータの種類や追記の頻度が異なり、データウェアハウス(DWH)の運用が難しくなってしまうためです。
これらの2つのデメリットを解消するために登場したのが『データマート』です。『倉庫』が語源のデータウェアハウス(DWH)と違い、データマートは『小売店(mart)』が語源となっています。これはどういうことなのでしょうか?
データマートとは?
データマートは、データウェアハウス(DWH)から特定の目的をもって、データを抽出・あるいは加工して保管するデータ保管システムです。小型のデータウェアハウス(DWH)と考えるといいでしょう。
データマートの特徴
データマートは、特定の目的をもって、データウェアハウス(DWH)から特定のデータを抽出・加工されたものが保管されます。
従って、以下のような特徴を持ちます。
- 複数の部門で利用できる
- 素早く構築ができる
- 高速な分析が可能
- 長期的なデータ分析には向かない
それぞれの特徴について、具体的に見ていきます。
複数の部門で利用できる
データウェアハウス(DWH)から少量のデータを利用して作成されるため、データウェアハウス(DWH)とのデータ競合が起こることがありません。また、データウェアハウス(DWH)とは違う目的をもって構築されるため、部門の目的に沿ったデータの保管、分析が可能になります。
素早く構築ができる
データウェアハウス(DWH)からデータを抽出して格納するだけで構築が可能なので、データウェアハウス(DWH)内にデータが存在していれば、すぐに構築できます。場合によっては数分~数十秒で構築が可能です。
高速な分析が可能
データウェアハウス(DWH)の場合は、保存されたデータの容量が数TBに及ぶことがありますが、データマートではせいぜい100GB。データ量が小さい分高速にデータ分析をすることが可能です。
長期的なデータ分析には向かない
データマートは、データウェアアウス(DWH)の一部のデータを抜き出して作成されるものです。長期にわたりデータを追記し続けることは行われません。
従って、中長期的なデータ分析には不向きになってしまうというデメリットがあります。その場合は、データレイクやデータウェアハウス(DWH)を利用するといいでしょう。
データウェアハウス(DWH)とデータマートの違い
それではデータウェアハウス(DWH)とデータマートの違いについて記載していきます。
データウェアハウス(DWH) | データマート | |
---|---|---|
保存されるデータ | 共に構造化データが保存される。 | |
構築期間 | 構築まで長期間要する。 | 短期間で構築が可能。 |
目的 | 共に目的を持って構築がされる。 | |
必要な容量 | データウェアハウス(DWH)と比較してデータマートは保存されるデータが少なくなる傾向があります。 | |
使いやすさ | 目的に沿ったデータ分析においては使いやすいが、それ以外のケースの分析には向かない。また、データ分析のレスポンスも遅い場合がある。 | データウェアハウス(DWH)と比べて柔軟に使い分けが可能。ただし、場合によってはデータの加工が必要な場合もあり、その場合は使いやすさが減少する。 |
運用 | データマートと比べ、比較的に運用は困難ではないが、保存されるデータ容量によってはストレージの増設等、追加のコストを要する。 | データの更新が定期的に必要で、運用が困難な場合がある |
データマートを活用しよう
データマートとデータウェアハウス(DWH)について、違いを見てきました。データマートとデータウェアハウス(DWH)には、構造化データを分析する、という共通点もありますが、多様なデータ活用を行いたい場合には、都度データマートを利用するといいでしょう。
今後は、データ分析手法の発展や、様々なデータ分析ニーズが企業側から出てくるでしょう。そういった場合に備え、データマートを構築、運用しておくことは企業の競争力強化につながります。
ただし、データウェアハウス(DWH)も非常に優秀なデータ分析・保管ツールです。目的に合わせて使い分けるようにするのがよいでしょう。また、場合によってはデータレイクの構築も検討し、データレイクからもデータマートを構築するといった、柔軟かつ多様なデータを活用できるようにしておくといいでしょう。
データウェアハウス(DWH)やデータマートを活用するにはクラウドを利用しましょう
データマートには高速にデータのロードや分析が求められます。そのような機能をオンプレミスの環境に構築するには、高性能なストレージやコンピューティング環境を用意する必要があります。
また、データウェアハウス(DWH)は先述の通り、容量が大容量になる場合があります。場合によっては数百テラバイト~ペタバイト級の容量が必要になる場合があります。ペタバイト級のデータを保存する場合、高性能なストレージ製品が数台~数十台必要になります。
このように、データマートやデータウェアハウス(DWH)をゼロから構築するには、多大なコストがかかってしまいます。また、ストレージ製品やコンピューティング環境のカスタマイズ、運用にも多大なコストがかかってしまいます。
従って、AWSやGoogle Cloudのようなパブリッククラウドのサービスを利用してみましょう。AWSのRedshiftやGoogle CloudのBigQueryを利用すれば、大容量のデータレイクがすぐに構築できます。
また、パブリッククラウドのサービスなら、高速な分析機能も備えています。他の企業との競争力を維持するためにも、クラウドサービスを利用し、データの利活用を積極的に行ってみてはいかがでしょうか?
弊社トップゲートでは、Google Cloud (GCP) 利用料3%OFFや支払代行手数料無料、請求書払い可能などGoogle Cloud (GCP)をお得に便利に利用できます。さらに専門的な知見を活かし、
- Google Cloud (GCP)支払い代行
- システム構築からアプリケーション開発
- Google Cloud (GCP)運用サポート
- Google Cloud (GCP)に関する技術サポート、コンサルティング
など幅広くあなたのビジネスを加速させるためにサポートをワンストップで対応することが可能です。
Google Workspace(旧G Suite)に関しても、実績に裏付けられた技術力やさまざまな導入支援実績があります。あなたの状況に最適な利用方法の提案から運用のサポートまでのあなたに寄り添ったサポートを実現します!
Google Cloud (GCP)、またはGoogle Workspace(旧G Suite)の導入をご検討をされている方はお気軽にお問い合わせください。
データ活用にご興味がある方におすすめの記事をご紹介!
最後までご覧いただきありがとうございます。以下では、データ分析に関する記事をピックアップしております。データ分析基盤やGoogle CloudのBigQueryに関して理解を深めたい方は以下の記事がオススメです。
データ分析基盤間の違いを理解したい方にオススメの記事
データ分析基盤の一つであるデータマート概要と設計ポイントをご紹介!
データウェアハウス(DWH)とは?メリットや活用例まで一挙に紹介
クラウドベンダー間のデータウェアハウス(DWH)を比較したい方にオススメの記事
クラウドDWH(データウェアハウス)って何?AWS,Azure,GCPを比較しながら分析の手順も解説!
BigQueryの概要を知りたい方にオススメの記事
超高速でデータ分析できる!専門知識なしで扱えるGoogle BigQueryがとにかくスゴイ!
ビッグデータの保存先はGoogle Cloudで決まり! BigQueryでデータを管理・分析のすすめ
BigQueryの深いところまで知りたい方にオススメの記事
BigQueryで考慮すべきセキュリティとその対策を一挙ご紹介!
【トップゲート主催】ゲーム業界様向けGCP活用のポイント 〜BigQuery編〜
また、弊社トップゲートは Google Cloud Platform™(以下 GCP) のプレミアパートナーとして、専門的な知見を活かし、 Google Cloud 上でのシステム構築からアプリケーション開発まで、ワンストップでご対応することが可能です。クラウドネイティブな環境構築から、新規サービスや PoC、テスト環境などスモールスタートとしての IT インフラとアプリケーションの組み合わせた開発などお客様ごとのご要望に合わせた環境を実現します。
お見積もりだけでも対応可能ですので、お気軽にお問い合わせください!
過去の開発事例紹介資料も、公開中!
ご興味ある方は、ぜひDLしてみませんか?
開発事例紹介資料をダウンロードする
メール登録者数3万件!TOPGATE MAGAZINE大好評配信中!
Google Cloud(GCP)、Google Workspace(旧G Suite) 、TOPGATEの最新情報が満載!