Dataplex とは? Google が提供する高性能なデータファブリックをあらゆる目線から徹底解説!
- Cloud
- Dataplex
- データファブリック
- データ活用
Dataplex というサービスをご存知でしょうか? Google が提供するデータファブリックであり、データ管理を自動化するためのツールです。 Dataplex を活用することで、データの一元管理やデータに基づいた意思決定など、企業は様々なメリットを享受できます。
本記事では、 Dataplex とは何か?という基礎的な内容から、 Dataplex の特徴やできること、料金体系まで、あらゆる観点から一挙にご紹介します。
目次
データファブリックとは?
データファブリックとは、オンプレミスやクラウドに点在する様々なデータを最適な場所に配置し、必要なデータを任意のタイミングで抽出可能にするためのアーキテクチャです。一言で表すのであれば「企業のデータ活用を促進するための分散型データ基盤」であると言えます。
従来、企業におけるデータ活用は、煩雑な仕組みを採用しているケースが少なくありませんでした。例えば、オンプレミス環境とクラウド環境にそれぞれデータが置いてある場合、それらのデータを一元的に扱うことはできず、別々の仕組みを使ってデータを管理していたのです。
この場合、データの一元管理を実現することは困難であり、複数の仕組みを使ってデータを保管しているだけの状態となってしまいます。しかし、データは保管しているだけでは意味がなく、自社の保有しているデータを分析し、今後の戦略策定や意思決定に活用してこそ、真の価値を発揮します。
そこで、データファブリックが有効な武器になります。データファブリックは、社内に点在する様々なデータを一つに集約し、網羅的かつ効率的に一元管理することが可能です。つまり、データの置き場所やインフラ環境などに左右されず、一気通貫したデータ管理・活用を実現できるのです。
情報のビッグデータ化が進む昨今、データの量は増大し、その種類も多様化しています。そのため、社内に点在した膨大かつ多様なデータを一元管理できるデータファブリックは、益々重要な存在になっていると言えるでしょう。
データファブリックに関心のある方は以下の記事が参考になります。
一元的なデータ管理を実現するデータファブリックとは?メリットや導入時のポイントまで徹底解説!
Dataplex とは?
Dataplex とは、 Google が提供するデータファブリックであり、分散したデータを一元化することでデータ管理を自動化し、より強力な大規模分析を可能にするためのインテリジェントなデータ管理アーキテクチャです。
Google は、データの種類や利用頻度に応じて、適切な保管場所があると考えており、然るべきに場所にデータを置いたまま、全体として統合的な分析を実行していくための環境づくりが重要だと認識しています。そして、これらを実現するためのソリューションとして Dataplex をリリースしました。
Dataplex は「統合化された分析環境」や「サイロ化されたデータの一元管理」など、様々な特徴を持っています。次章以降で詳しくご説明します。
Dataplex の特徴
Dataplex は様々な特徴を持ったサービスです。代表的なものをいくつかご紹介します。
サイロ化されたデータの一元管理
Dataplex では、「 Lake 」と「 Zone 」という新しいデータセットの概念を導入しています。
Lake とは、データドメインやビジネスユニットを表す論理構造であり、例えば、グループの使用状況に基づいてデータを整理するには部門(小売、販売、財務など)ごとにレイクを設定できます。また、 Zone は Lake 内のサブドメインであり、使用法(データコントラクトなど)、制限(セキュリティ制御、ユーザーアクセスレベルなど)ごとにデータを分類する際に役立ちます。
これにより、異なるプロジェクトやデータストアを Zone でグループ化し、目的や用途に応じた論理的なデータアセットのグループ化を実現しています。そして、データをまとめることで、セキュリティや財務ガバナンスの一元管理も可能になります。
セキュリティとガバナンスの集中化
Dataplex を活用することで、データアクセスの一元的な定義、管理、監査を実行することができます。 Lake や Zone の単位でアクセス制御することでデータサイロ全体を容易に管理できますし、 Lake などに設定されたセキュリティポリシーは、下位の Zone やデータアセットに自動的に伝播します。
インテリジェントなデータ管理
データ分析を行うためにはメタデータが必要になりますが、一般的にメタデータの管理は容易ではありません。しかし、 Dataplex を使えばメタデータを自動的に検出でき、データ探索や BigQuery 、 Dataproc からのクエリを簡単に実現できます。
さらに、非構造化データのメタデータ収集や機密データの自動分類を行うことが可能であり、データの異常検知やスキーマ検査など、データ品質の管理をサポートする機能も数多く搭載されています。
Dataplex でできること
Dataplex の活用により、どのようなことを実現できるのでしょうか。順番に見ていきましょう。
データの組織化とキュレーションを実現できる
Dataplex は「データの移動や重複を回避しつつ、ビジネスに有意義な方法でデータを整理・管理する」という考え方を基に設計されています。そのため、 Google では「 Lake 」や「 Zone 」などの新しい論理構造を採用しており、これらはストレージシステムを抽象化して、データアクセスやセキュリティ、ライフサイクル管理などのポリシーを設定するための基盤になります。
これにより、組織内の部門ごとに Lake を作成でき、データの即応性と使用に直結する Data Zone を作成できます。 Lake や Zone を一度設定すると、その Zone にはデータをアセットとしてアタッチできますし、様々なタイプのストレージから取得したデータを同じ Zone に追加できます。さらに、同じ Zone 内の複数のプロジェクトにデータをアタッチすることも可能です。
高品質なデータ分析とデータサイエンスを実現できる
Dataplex の大きな特徴として、 Google が持つ最高水準の AI / ML テクノロジーを使用したデータインテリジェンス機能が挙げられます。データを管理下に置いた段階で、 Dataplex は組み込みのデータ品質チェックを使用し、構造化データと非構造化データの両方のメタデータを自動的に収集します。
そして、すべてのメタデータは統合メタストアに自動的に登録され、検索と検出に利用できるようになります。また、 BigQuery や Dataproc Metastore 、 Data Catalog などにも公開され、これらのツール間で一貫したデータアクセスが可能になります。
このように、 Dataplex を活用することで、自社のニーズや状況に合わせて、好きなツールを選択・使用し、品質基準とガバナンスルールを満たすデータに安全にアクセスできます。なお、追加の処理が不要な点も嬉しいポイントです。
フルマネージドなワンクリック分析環境を容易に構築できる
Dataplex は、フルマネージドのワンクリック分析環境を提供します。データの管理者は、適切な費用管理と財務ガバナンス手法によって、この環境を柔軟に構成できるようになります。なお、環境を支える上で、インフラストラクチャの管理や保守などを考慮する必要はありません。
また、各種ワークロードに対応する様々な環境をスピーディーに構成し、 IAM の認証情報によってその環境を複数のユーザーと共有できます。 Dataplex は、このような環境のプロビジョニングやモニタリング、スケーリング、シャットダウンなどを管理することが可能です。
そして、データ検索に加えて、ノートブックとスクリプトの検索や作業内容の保存、他ユーザーとの共有、ノートブックやスクリプトの定期的ワークロードとしてのスケジューリングなどを1つの統合エクスペリエンスとして、 Dataplex で一元的に実行可能になります。
データを安全な環境で保護できる
Dataplex では、データの物理的な場所に関係なく、データ全体で一貫したポリシーを定義して適用できます。そのため、データの保存場所を気にすることなく、ビジネスニーズに基づいて特定のデータドメインに関するポリシーを簡単に設定できます。さらに、 Lake 全体や特定の Zone に対して、セキュリティとガバナンスポリシーを適用することも可能です。
加えて、 Dataplex は基礎となるストレージにポリシーを関連付け、アクセス許可をストレージレイヤーにプッシュダウンすることで、エンドツーエンドの安全なデータアクセスを提供します。また、同じアクセスポリシーのセットを使用して、データだけでなく、ノートブックやスクリプト、モデルなどの関連アーティファクトも保護できます。
Dataplex の活用シーン
本章では、 Dataplex の具体的な活用シーンをご紹介します。
前述した通り、 Dataplex は企業のデータ分析を強く促進するサービスです。データ分析のプロセスにおいては、データサイエンティストやデータアナリストなど、複数のメンバーが共同作業を行いますが、作業中に何かしらの課題にぶつかってしまうことも少なくありません。
その代表的な例として「ツールの違い」が挙げられます。例えば、データサイエンティストはノートブックを使うことが多く、データアナリストは主に SQL を使用します。そして、これらのツールの違いにより、データ分析の作業効率が低下してしまいます。
そこで Dataplex が効果を発揮します。 Dataplex を活用することで、膨大なデータが集約された場所から情報を一元的に探索し、クリックなどの簡単な操作だけでデータ分析用のツールに遷移できます。さらに裏側のエンジンは状況に応じて自由に切り替え可能であり、ノートブックと SQL スクリプトの共有やスケジュール実行も行えるため、組織として効率的なデータ活用を実現できます。
また、 Dataplex はドメイン中心のデータメッシュを構築することも可能であり、販売や顧客、サービスなど、複数のドメインにデータを編成して、各データの所有権を分散化することができます。加えて、部署やレイヤーごとにアクセスレベルを変えてデータの階層化を行うことも可能です。
このように Dataplex は企業が効率的かつ柔軟なデータ分析を実現する上で、とても有効なサービスになると言えるでしょう。
Dataplex の料金体系
Dataplex は従量課金の料金体系を採用しており、データ処理や使用するストレージ量に応じて課金額が変動します。
データ処理に関しては「 Data Compute Unit (DCU) 」という単位が採用されており、これにはデータ検出およびデータ探索の機能が含まれています。なお、1 DCU は 1 vCPU と 4 GB の RAM に相当します。そして、 Dataplex のシャッフルストレージ( GB /月)は、 Dataplex のデータ探索をサポートするディスクストレージをカバーします。
以下、 Dataplex の処理およびシャッフルストレージにかかる料金です。
項目 | 料金 |
---|---|
Dataplex の処理料金 | 60円(DCU 1時間あたり) |
Dataplex のシャッフルストレージ料金 | 0.04米ドル( GB 単位/月) |
その他、 Lake や Zone 、アセットなどの設定や、セキュリティポリシーの適用など、 Dataplex のデータ編成機能は無料で使用できます。
また、 Google Cloud (GCP)の無料枠の一部として、 Dataplex では特定の上限まで無料でリソースを使えるようになっています。
項目 | 無料枠の上限 |
---|---|
Dataplex の処理 | 100 DCU 時間 |
Dataplex のシャッフルストレージ | 1 DCU あたり 125 GB (または月合計 17 GB) |
この無料使用量の上限は、無料トライアル期間中だけでなく、期間終了後も適用されます。仮に、使用量の上限を超え、かつ無料トライアル期間を過ぎている場合は、上記のセクションに記載されている料金体系に沿って課金されます。
データ分析をするなら Google Cloud (GCP)がオススメ
データファブリックのようなデータ分析基盤を構築するためのツールは数多く存在しますが、サービスごとに特徴や強みは異なります。そのため、効率的なデータ活用を実現するためには、最適なツールを選択することが必要不可欠です。
今回ご紹介した Dataplex は Google Cloud (GCP)に内包されているサービスであるため、使うためには Google Cloud (GCP)の契約が必要になります。そして、企業がデータ分析を行う上で、 Google Cloud (GCP)はとてもオススメなソリューションだと言えます。
Dataplex が搭載されている点もオススメな理由の一つですが、 Google Cloud (GCP)にはそれ以外にも様々なメリットがあります。最後に、 Google Cloud (GCP)の概要とデータ分析に適している理由をご紹介します。
Google Cloud (GCP)とは?
Google Cloud (GCP) は Google が提供するパブリッククラウドサービスです。同じ種別のサービスとしては、 Microsoft 提供の「 Azure 」や Amazon 提供の「 AWS 」などが挙げられます。
Google Cloud (GCP) は、セキュアで高い安定性を持つ Google の IT プラットフォーム環境を自社で利用することができます。ビッグデータや Google Workspace との連携など、『クラウド利用を越えた先の IT 戦略』をシームレスに実現することが可能です。
また、「 BigQuery 」をはじめとした優れたデータ解析ツールが用意されているため、一部のエキスパートだけでなく、組織全体でデータを活用し、経営戦略の策定や業務改善に繋げていくことが可能です。さらに Google Cloud(GCP) の多種多様なサービスを活用することで、高精度なデータ分析を実現することができます。
データ分析に役立つソリューションが揃っている
Google Cloud (GCP)では、データ分析に役立つソリューションが数多く提供されており、今回ご紹介した Dataplex はもちろんのこと、その他にも多種多様なサービスが備わっています。
例えば、 DWH は BigQuery 、 ETL は Dataflow 、 BI ツールは Looker など、高性能かつ使いやすいサービスが多く用意されているため、一気通貫したデータ処理を効率的に進めることが可能です。
その中でも BigQuery はデータ分析に大きく寄与するツールであり、通常では長い時間かかるクエリを数 TB (テラバイト)、数 PB (ペタバイト)のデータに対して数秒もしくは数十秒で終わらせることができるビッグデータ解析サービスです。
BigQuery は従来のデータベース概念とは異なり、今までデータベースでのクエリでは必須だったインデックスすら必要としません。つまり、データベースの専門知識がなくても高速クエリが可能であり、利用料金の目安も「 1 TB (テラバイト)あたり 500 円程度」と非常にリーズナブルである点も嬉しいポイントです。
また、 2022 年 4 月に発表された新しいストレージエンジンである BigLake を使えば、きめ細かいセキュリティ管理やマルチコンピューティング分析、マルチクラウドガバナンスなどを実現でき、 BigQuery の活用の幅はさらに広がります。
加えて、 BigQuery には BigQuery ML (BQML)という機械学習機能が組み込まれています。 BigQuery と BQML はシームレスに連携しているため、データの管理や分析、そしてデータを活用した ML まで、すべてのプロセスを BigQuery の世界の中だけで一気通貫で完結できます。
さらに、 BigQuery を Cloud Spanner と連携すればリアルタイム分析を行うことも可能です。このように、 Google Cloud (GCP)には BigQuery をはじめとした、データ分析に活用できる便利なソリューションが揃っています。
BQML に関心のある方は以下の記事がオススメです。
こんなに簡単にできるの? BigQuery ML で教師ラベルなしで異常検出する3つの方法とは?
BigQuery と Cloud Spanner との連携によるリアルタイム分析のやり方は以下の記事で解説しています。
BigQuery から Cloud Spanner に直接クエリを実行し、トランザクションデータをリアルタイムに分析しよう
ユーザーインターフェースが使いやすい
Google Cloud (GCP)の大きな特徴として、使いやすいユーザーインタフェースが挙げられます。あらゆる操作がボタンクリックやドラッグ&ドロップなどで完結するため、専門知識を持たない人でも簡単に使うことができます。これにより、組織全体で社内のデータを有効活用することが可能になります。
データ処理速度が速い
データ分析基盤においては、データの処理速度が重要なポイントになります。膨大なビッグデータを効率的に処理するには、高いサービススペックが求められるためです。
Google Cloud (GCP) は月間60億時間分の動画を再生する YouTube や、10億人のユーザーが利用している Gmail と同じインフラをベースとしています。そのため、高速で安定したパフォーマンスを誇り、大量のデータに対してもスムーズなリアルタイム処理を実現します。
柔軟にスケーリングできる
Google Cloud (GCP)は 100% クラウドで提供されているサービスであるため、状況に合わせて柔軟にスケーリングできます。将来的にデータ量が増加した場合でも簡単にリソースを追加できるため、安心してデータ分析基盤を運用することができます。
また、 Google Cloud (GCP) は自動スケーリングに対応しており、自社の状況に応じてリソースを自動的に増減してくれます。そのため、管理者が都度設定を変更したり、煩雑なリソース調整を行う必要はありません。面倒な作業は Google Cloud (GCP) が自動で行ってくれるため、自社は本来注力すべき作業に集中することができ、結果的に業務効率化や生産性向上に直結します。
セキュリティレベルが高い
Google Cloud (GCP) は第三者認証取得のハイレベルなセキュリティを備えており、
- SSAE16 / ISAE 3402 Type II:SOC 2/SOC 3
- ISO 27001・FISMA Moderate
- PCI DSS v3.0
など、さまざまな年次監査を受けています。
そのため、安全なセキュリティ環境でデータ分析基盤を構築することができ、情報漏洩などの各種リスクを低減した形で、安心して作業を進めることが可能になります。
まとめ
本記事では、 Dataplex とは何か?という基礎的な内容から、 Dataplex の特徴やできること、料金体系まで、一挙にご紹介しました。
昨今、企業のデータ活用が強く叫ばれており、データファブリックの重要性は益々高まっています。ビッグデータ化が進む現代において、データファブリックの活用が企業成長の明暗を分けると言っても過言ではありません。
市場には様々なデータファブリックが存在しますが、せっかく導入するなら Google Cloud (GCP)がオススメです。 Google Cloud (GCP)に搭載されている Dataplex を活用することで、高性能なデータファブリックを簡単に構築できます。
さらに、 Google Cloud (GCP)に搭載された各種サービスを使えば、データ活用のプロセスを一気通貫で行うことが可能です。効率的なデータ活用を実現する上で、 Google Cloud (GCP)は最適なソリューションだと言えるでしょう。
本記事を参考にして、ぜひ Google Cloud (GCP)の導入および Dataplex の活用を検討してみてはいかがでしょうか。
弊社トップゲートでは、Google Cloud (GCP) 利用料3%OFFや支払代行手数料無料、請求書払い可能などGoogle Cloud (GCP)をお得に便利に利用できます。さらに専門的な知見を活かし、幅広くあなたのビジネスを加速させるためにサポートをワンストップで対応することが可能です。
Google Workspace(旧G Suite)に関しても、実績に裏付けられた技術力やさまざまな導入支援実績があります。あなたの状況に最適な利用方法の提案から運用のサポートまでのあなたに寄り添ったサポートを実現します!
Google Cloud (GCP)、またはGoogle Workspace(旧G Suite)の導入をご検討をされている方はお気軽にお問い合わせください。
メール登録者数3万件!TOPGATE MAGAZINE大好評配信中!
Google Cloud(GCP)、Google Workspace(旧G Suite) 、TOPGATEの最新情報が満載!