データの定義からデータレイクとデータウェアハウス(DWH)の違いをわかりやすく解説!
- BigQuery
- DWH
- S3
- ストレージ
”データ”を取り巻く用語には、様々な用語が存在します。例えば、以下のような用語が存在します。
- データレイク
- データマート
- データウェアハウス(DWH)
これらは、データを蓄積して、分析や機械学習に使うためのものですが、それぞれの役割は大きく異なっています。それぞれ、どのような意味で、どのような役割があるのでしょうか?
本記事では、『データレイク』と『データウェアハウス(DWH)』の違いについてご紹介していきます。
目次
そもそも、データとは?
そもそも、なぜデータをためておく必要があるのでしょうか?
その前にデータについての理解度を統一するために、データの定義を説明します。日本工業規格の「X0001 情報処理用語-基本用語」において、「データ」の用語定義は
「情報の表現であって、伝達、解釈または処理に適するように形式化され、再度情報として解釈できるもの」
とされています。つまり、
- コンピュータや機械によって出力された事実やその記録
- 再度読み込みや利用が可能
というもののことを言います。
例えば、サーバーのログ、自動車の走行記録、実験記録、仕事で作成した書類、音楽ファイル、動画ファイルなどが、「データ」に該当します。
データの種類
データの種類は、以下の2種類に分かれます。
- 構造化データ
- 非構造化データ
それぞれ、どのような特徴を持っているのか、記載していきます。
構造化データとは?
構造化データとは、エクセルのように「列」「行」があり、「列」「行」にそれぞれ関係性を持っているデータのことです。例えば、天気予報で1時間おきの気温が記載されている表を思い浮かべてみてください。1時間ごとの気温が、「列」または「行」で記載されていると思います。
このように、列または行に関係性があり、「どこに何があるか」が決められているデータのことを、構造化データといいます。構造化データは以下のような特徴があります。
構造化データの特徴1.簡単に分析できる
天気予報で1時間おきの「構造化データ」をみて、何時にどれくらいの気温か、ということは一目でわかります。このように、構造化データは特殊なツールを使わなくても、簡単に分析が行えるのが特徴です。
構造化データの特徴2.加工しやすい
「列」「行」にそれぞれ関係性を持っているため、データの削除や挿入といった加工がしやすいのが特徴です。また、特定の条件を持つデータだけ抽出する、といったことも可能です。
非構造化データとは?
非構造化データとは、メールやPDFファイル、エクセルやワードで作った書類、動画や音楽データなど、日々の業務や生活で作成された雑多なファイルのような、データ単体では意味を持ちますが、それぞれのデータ間に関係性がない(または、関係性が極端に薄い)データのことを指します。
これらのデータについては、構造化データのようにデータベースに格納しにくいという特徴を持ちます。非構造化データは以下のような特徴があります。
非構造化データの特徴1.構造化データと比べ、膨大な量が存在する
先述の通り、世の中のデータの大半は非構造化データです。構造化データのように、「列」「行」にそれぞれ関係性を持たせ、保存しているデータは世の中にはごく少数です。PDFファイルや、エクセル・ワード等で作成されるデータは日々色々なところで生まれ続けているからです。実際に、仕事で構造化データを作成している時間よりも、非構造化データを作成している時間のほうが多いのではないでしょうか?
非構造化データの特徴2.活用方法が定まっていない
PDFファイルや仕事で作成した書類は、それ自体には意味を持ちますが、「データ」という観点でみると、明確な活用方法や分析方法は定まっていません。「後で使うかもしれないのでとりあえず保存はしておくが、データとしての分析対象にもできない」というファイルなのです。
データの活用
構造化データや、非構造化データの活用はなぜ必要なのでしょうか?
理由は以下の3点です。
- データの分析が容易になり、データ活用競争が起きている。
- 企業戦略の立案につながる。
- 顧客の獲得や満足度向上につながる。
それぞれ、以下の見出しで詳しく説明します。
データの活用競争
まず、データの活用がどのような手順で行われるかを説明します。データの活用は、もともと蓄積してあるデータを、コンピュータを用いて加工をおこない、統計的手法やSQL等により、分析します。
従って、データ分析には、データ自体のほかに、以下のツールが必要です。
- 大量のデータを保存しておくストレージ
- 大量のデータを高速に処理するコンピュータ
- 大量のデータを分析する手法
2000年代であれば、データを保存しておくストレージや高速に処理するコンピュータがなく、機械学習など、データ分析を行う手法があってもデータの活用はなかなか進みませんでした。
しかし、近年ではストレージやコンピュータの性能向上により、大量のデータを短い時間で処理できるようになりました。加えて、AWSやGoogle Cloudなどのクラウドの普及により、大企業でなくても、ペタバイト級のデータを手軽に保存し、分析を行えるようになりました。
これにより、現在では、様々な企業が機械学習や統計学の手法を用いて、データの活用を行っています。従って、データ分析が行えない、または行っていない企業はその他の企業の遅れをとってしまい、競争力が減衰していきます。企業の競争力を維持するためにも、データの活用は必要不可欠です。
企業戦略の立案につながる
機械学習の手法を用いてデータを分析を行うと、「分類」「予測」を行うことができます。そして、「予測」の手法を用いると、来客数や売り上げ、仕入れの予測が行えるようになります。実際に電力会社などでは、機械学習を用いて気候や季節から、電力の需要を予測し、発電量を調節する、または他の電力会社から売買電をする、といったことが行われています。
また、過去5年のデータから、今後5年間の予測を行うといったことも、データの分析手法次第によっては可能です。このように、機械学習を用いて予測を行うことで、短期的~中期的な企業戦略の決定に役立てることができます。
顧客の獲得や満足度向上につながる
データ分析で可能なのは企業戦略の立案だけでなく、顧客の満足度向上にもつながります。例えば、機械学習の「分類」を行い、顧客のニーズをとらえるといったことが可能になります。
また、人気の商品に対して「予測」を行い、商品の需要や行列の待ち時間などの予測を行えば、売り切れや長蛇の列により顧客の満足度を下げることなく、人気商品を売りさばくことができます。
データは重要な経営資源
これらから見てわかるように、データを活用し、経営判断や顧客の満足度向上につなげることができます。従って、データは21世紀においては非常に重要な経営資源といえます。
データをうまく活用することで、他社との競争力を維持することができますが、逆に、データをうまく活用できないと、他社との競争に負けてしまうだけでなく、誤った経営判断を下したり、顧客満足度を大きく下げてしまうことになります。
データ蓄積の方法と種類について
これまで、データの種類や重要性について述べてきました。では、経営資源であるデータをどのようにためておけばいいのか、データ蓄積の方法について、記載していきます。
データ蓄積の方法は、主に3つあります。
- データウェアハウス(DWH)
- データマート
- データレイク
その中で本記事では、データレイクとデータウェアハウス(DWH)の違いについて、深掘りしていきます。
データウェアハウス(DWH)とは?
データウェアハウス(DWH)とは、ウェアハウス(倉庫)が語源になっていて、データをすぐに取り出して分析できるように、整理し、保存しておく場所のことです。そのため、保存されるデータは主に構造化データになっています。また、データウェアハウス(DWH)は目的をもって設計がなされています。
たとえば、どのようなデータを格納し、どのようなアウトプットが必要とされるかを、事前に決めて設計します。そのため、データウェアハウス(DWH)は、構築期間が少々長くなるという特徴があります。データの形式や加工方法について、データウェアハウス(DWH)の利用者と十分に認識合わせを行った上に、事前に設計する必要があるためです。
データレイクとは?
データレイクとは、ビッグデータをそのまま(生データのまま)格納できるストレージリポジトリのことです。特に、音声や動画、SNSのログなどを含むあらゆる形式のデータ(非構造化データ)を、そのままの形式で貯めておけるのが利点です。ゆえに、データレイクに保存されるデータは、整理された状態で保存はされません。
また、保存の目的も明確ではありません。「あとで使うかもしれないからとっておこう」というような動機でデータが保存されています。従って、データレイクの構築期間はほとんど時間がかかりません。
例えば、AWSやGoogle Cloudなどのパブリッククラウドで利用できるストレージサービス(S3やCloud Storage)を利用することで、短時間に構築が可能です。
データレイクとデータウェアハウス(DWH)の違い
それではデータレイクとデータウェアハウス(DWH)の違いについて記載していきます。
データウェアハウス(DWH) | データレイク | |
---|---|---|
保存されるデータ | 構造化データ | 非構造化データと構造化データ |
構築期間 | 構築まで長期間要する | 短期間で構築が可能 |
目的 | 明確な目的をもとに構築がなされる。 | 目的がなくても構築することがある。 |
ユーザー | ユーザーは特定されていることが多い | ユーザーは特定されていないことが多い |
必要な容量 | データウェアハウス(DWH)と比較して大容量化する傾向がある。 | |
使いやすさ | 目的が明確なため、用途が特定されている分使いやすい | データの加工が必要で、使いやすさはデータウェアハウス(DWH)に劣る。 |
データレイクを活用しよう
データウェアハウス(DWH)とデータレイクについて、違いを見てきました。現代では、様々なデータを活用し、様々な用途に利用できます。また、ビジネススピードは日々高速化しています。従って、構築に長期間かかり、目的が決まってしまっているデータウェアハウス(DWH)よりは、データレイクを利用するのがいいのではないでしょうか?
もちろん、利用用途が明確になっているのであれば、データウェアハウス(DWH)を構築するのがベストです。
データレイクを活用するにはクラウドを利用しましょう
データレイクは先述の通り、容量が大容量になる場合があります。場合によってはペタバイト級の容量が必要になる場合があります。ペタバイト級のデータを保存する場合、高性能なストレージ製品が数台~数十台必要になります。加えて、データ分析用のコンピュータも用意する必要があります。このように、データレイクを一から構築するには、多大なコストがかかってしまいます。
従って、AWSやGoogle Cloudのようなパブリッククラウドのサービスを利用してみましょう。先述のように、AWSのS3やGoogle CloudのCloud Storageを利用すれば、大容量のデータレイクがすぐに構築できます。また、Google CloudのBigQueryを利用すれば、構造化データのみになりますが、データの保存のほかに、高速な分析も可能になります。
他の企業との競争力を維持するためにも、クラウドサービスを利用し、データの利活用を積極的に行ってみてはいかがでしょうか?
弊社トップゲートでは、Google Cloud (GCP) 利用料3%OFFや支払代行手数料無料、請求書払い可能などGoogle Cloud (GCP)をお得に便利に利用できます。さらに専門的な知見を活かし、
- Google Cloud (GCP)支払い代行
- システム構築からアプリケーション開発
- Google Cloud (GCP)運用サポート
- Google Cloud (GCP)に関する技術サポート、コンサルティング
など幅広くあなたのビジネスを加速させるためにサポートをワンストップで対応することが可能です。
Google Workspace(旧G Suite)に関しても、実績に裏付けられた技術力やさまざまな導入支援実績があります。あなたの状況に最適な利用方法の提案から運用のサポートまでのあなたに寄り添ったサポートを実現します!
Google Cloud (GCP)、またはGoogle Workspace(旧G Suite)の導入をご検討をされている方はお気軽にお問い合わせください。
データ活用にご興味がある方におすすめの記事をご紹介!
最後までご覧いただきありがとうございます。以下では、データ分析に関する記事をピックアップしております。データ分析基盤やGoogle CloudのBigQueryに関して理解を深めたい方は以下の記事がオススメです。
データ分析基盤間の違いを理解したい方にオススメの記事
データ分析の歴史から紐解く!データウェアハウスとデータマートの違いを徹底解説
データ分析基盤の一つであるデータマート概要と設計ポイントをご紹介!
データウェアハウス(DWH)とは?メリットや活用例まで一挙に紹介
クラウドベンダー間のデータウェアハウス(DWH)を比較したい方にオススメの記事
クラウドDWH(データウェアハウス)って何?AWS,Azure,GCPを比較しながら分析の手順も解説!
BigQueryの概要を知りたい方にオススメの記事
超高速でデータ分析できる!専門知識なしで扱えるGoogle BigQueryがとにかくスゴイ!
ビッグデータの保存先はGoogle Cloudで決まり! BigQueryでデータを管理・分析のすすめ
BigQueryの深いところまで知りたい方にオススメの記事
BigQueryで考慮すべきセキュリティとその対策を一挙ご紹介!
【トップゲート主催】ゲーム業界様向けGCP活用のポイント 〜BigQuery編〜
また、弊社トップゲートは Google Cloud Platform™(以下 GCP) のプレミアパートナーとして、専門的な知見を活かし、 Google Cloud 上でのシステム構築からアプリケーション開発まで、ワンストップでご対応することが可能です。クラウドネイティブな環境構築から、新規サービスや PoC、テスト環境などスモールスタートとしての IT インフラとアプリケーションの組み合わせた開発などお客様ごとのご要望に合わせた環境を実現します。
お見積もりだけでも対応可能ですので、お気軽にお問い合わせください!
過去の開発事例紹介資料も、公開中!
ご興味ある方は、ぜひDLしてみませんか?
開発事例紹介資料をダウンロードする
メール登録者数3万件!TOPGATE MAGAZINE大好評配信中!
Google Cloud(GCP)、Google Workspace(旧G Suite) 、TOPGATEの最新情報が満載!