Google の新サービス「 BigLake 」とは?特徴やメリット、ユースケースまで徹底解説!
- BigLake
- BigQuery
- Cloud
- ストレージエンジン
2022年4月6日、 Google は新サービスとなる BigLake のプレビュー版を発表しました。 BigLake は、データウェアハウス(DWH)とデータレイクを統合し、データ制限を撤廃するストレージエンジンです。
本記事では、 BigLake とは何か?という基礎的な内容から、 BigLake の要件や特徴、メリット、ユースケースなど、あらゆる観点から一挙にご紹介します。
目次
BigLake とは?
BigLake とは、2022年4月6日に Google が発表した新しいストレージエンジンです。2022年4月現在は、プレビュー版のサービスとして提供されています。
BigLake を活用することで、データウェアハウス(DWH)とデータレイク全体で統一された機能を備えたデータの単一コピーを保存したり、分散データに対するきめ細かいアクセス制御やマルチクラウドガバナンスを実現したりできます。
また、オープンソース分析ツールやオープンデータ形式ともシームレスに統合可能であり、マルチクラウドストレージとオープンフォーマット全体で、クエリのパフォーマンスを向上させることができます。
このように、 BigLake には Google の最先端のテクノロジーが詰まっています。 BigLake は BigQuery への長年の投資に基づいて構築されたサービスであるため、その品質は十分に信頼できると言えるでしょう。
BigQuery に関心のある方は以下の記事が参考になります。
超高速でデータ分析できる!専門知識なしで扱えるGoogle BigQueryがとにかくスゴイ!
データウェアハウス(DWH)に関心のある方は以下の記事が参考になります。
データウェアハウス(DWH)とは?メリットや活用例まで一挙に紹介
データレイクに関心のある方は以下の記事が参考になります。
Google Cloud (GCP) で構築できる「データレイク」とは?概要、メリット、構築方法、ユースケースまで徹底解説!
BigLake 登場の背景
昨今、企業が保有する情報のビッグデータ化が進んでおり、組織が管理・分析すべきデータ量は増加傾向にあります。そして、これらのデータはデータウェアハウス(DWH)やデータレイクなど、様々な場所に点在しているケースが多くなっています。
また、組織のデータが肥大化かつ複雑化し、広範囲に拡散するにつれてサイロが出現します。さらに、そのデータを移動する場合は大きなリスクを抱えることになり、コストが増加する危険性が高まります。
このような課題を解決するためのソリューションとして BigLake が登場しました。 BigLake を活用することで、基盤となるストレージ形式やシステムを問わずにデータ分析が可能になり、データのコピー・移動が不要になります。これにより、組織全体のコスト削減と生産性向上を実現できるのです。
BigLake により、ユーザーは AWS と Azure 上の BigQuery とマルチクラウドデータレイク全体のパフォーマンスを加速するとともに、きめ細かいアクセス制御を利用できます。加えて、一貫したセキュリティを備えた Google Cloud (GCP)と、オープンソースエンジン全体でそのデータに均一にアクセスできるようになります。
そして、 BigLake は BigQuery による10年間のイノベーションをマルチクラウドストレージ上のデータレイクに拡張し、オープンフォーマットを使用して、柔軟かつ統一された費用対効果の高いレイクハウスアーキテクチャを保証します。
ビッグデータ化が進む現代において、 BigLake は心強い武器になるサービスだと言えるでしょう。
ビッグデータに関心のある方は以下の記事が参考になります。
ビッグデータとは何か?7業種のクラウドによるデータ活用事例をご紹介!
BigLake の要件
BigLake テーブルを使用する際は、 Google Cloud (GCP)のプロジェクトが次の条件を満たしている必要があります。
- BigQuery 接続 API が有効になっている
- Google Cloud SDK がバージョン366.0.0以降
また、 Apache Spark などのオープンソースエンジンから BigLake テーブルを読み取るためには、 BigQuery Storage Read API を有効にする必要があります。加えて、 BigLake の最適なパフォーマンスを得るためには、シングルリージョンまたはデュアルリージョンのバケットを選択することが推奨されています。
BigLake の特徴
きめ細かいセキュリティ管理
BigLake を使用することで、エンドユーザーにファイルレベルのアクセスを許可する必要がなくなります。既存の BigQuery テーブルと同様に、オブジェクトストアテーブルに対して、テーブルや行、列レベルのセキュリティポリシーを適用できます。
マルチコンピューティング分析
データの単一コピーを維持して BigLake コネクタを使用することで、 Google Cloud (GCP)と、
- BigQuery
- Vertex AI
- Spark
- Presto
- Trino
- Hive
などのオープンソースエンジン間で均一にアクセスできるようになります。また、セキュリティポリシーを1ヶ所で一元管理し、コネクタに組み込まれている API インターフェイスによって、クエリエンジン全体に一貫して適用されます。
Vertex AI に関心のある方は以下の記事が参考になります。
AI 活用を加速する Vertex AI とは? Google が提供する最新の機械学習プラットフォームを徹底解説!
マルチクラウドガバナンス
データカタログ( Data Catalog )で Amazon S3 や Azure Data Lake Storage Gen2 で定義されたものを含む、すべての BigLake テーブルを検出します。これにより、きめ細かいアクセス制御を構成し、 BigQuery Omni でクエリを実行する際はクラウド全体に適用できます。
データカタログについて理解を深めたい方は以下の記事がオススメです。
Google Cloud のメタデータ管理サービス「 Data Catalog 」とは?最先端の技術で効率的なデータ検出を実現!
パフォーマンスの加速
BigLake は実績のある BigQuery のインフラストラクチャを採用しています。これにより、 Google Cloud (GCP)や AWS 、 Azure など、様々なデータレイクテーブルで、業界をリードするパフォーマンスを実現します。
オープンフォーマットに基づいた構築
BigLake は Parquet や Avro 、 ORC 、 CSV 、 JSON など、人気のあるオープンデータ形式にアクセスできます。また、 API は、 ApacheArrow を介して複数のコンピューティングエンジンにサービスを提供します。
BigLake のメリット
データの保存場所を問わずに利用できる
BigLake では、分散データの保存場所や保存方法に関係なく、分析のロックを解除できます。また、データの単一コピーに対しては、分析ツールやオープンソース、クラウドネイティブなどを自由に選択可能なため、自社のニーズに合わせて柔軟に使うことができます。
安全でパフォーマンスの高いデータレイクを実行できる
BigLake は
- Apache
- Spark
- Presto
- Trino
などのオープンソースエンジン、および Parquet などのオープンフォーマット全体にわたる、きめ細かいアクセス制御を可能にします。また、 BigQuery を利用したデータレイクに対するパフォーマンスの高いクエリを実行できます。
大規模な統合ガバナンスと管理を実現できる
BigLake を Dataplex と統合することで、
- 論理データの編成
- 一元化されたポリシーとメタデータ管理
- 分散データ全体の一貫性を保つための品質およびライフサイクル管理
- データのサイロ化の解消
など、大規模かつ効率的な管理を実現可能になります。
DataPlex に関心のある方は以下の記事が参考になります。
Dataplex とは? Google が提供する高性能なデータファブリックをあらゆる目線から徹底解説!
BigLake のセキュリティモデル
BigLake のセキュリティモデルとして、大きく分けて3つのロールが存在します。
ロール | 概要 |
---|---|
データレイク管理者 | CloudStorage バケットおよびオブジェクトの Identityand Access Management (IAM)ポリシーを管理 |
データウェアハウス管理者 | BigLake テーブルの作成、削除、および更新 |
データアナリスト | BigQuery ユーザーの役割を持ち、データを読み取ってクエリを実行 |
このように、 BigLake には様々なロールが存在し、これらによってセキュリティモデルが成り立っています。
なお、データウェアハウス管理者には、以下の IAM ロールが求められます。
- BigQuery 管理者または BigQuery データ所有者
- BigQuery 接続管理者
また、データレイク管理者は、データウェアハウス管理者が管理する接続に読み取り権限を付与する責任があり、データウェアハウス管理者は BigLake テーブルの定義や適切なアクセス制御の設定を行い、 BigLake テーブルをデータアナリストと共有します。
各ロールで求められる役割が異なるため、それぞれの違いを正しく理解しておきましょう。
加えて、ユーザーは組織での役割(ロール)に基づき、次の IAM アクセス許可が求められます。
ロール | 必要な IAM アクセス許可 |
---|---|
データレイク管理者 | ・bigquery.connections.create ・bigquery.connections.delete ・bigquery.connections.list ・bigquery.connections.update |
データウェアハウス管理者 | ・bigquery.tables.create ・bigquery.tables.update ・bigquery.connections.delegate |
データアナリスト | ・bigquery.jobs.create ・bigquery.tables.get ・bigquery.tables.getData ・bigquery.readsessions.create |
実際に BigLake を使う際は、このような点に注意して利用するようにしてください。なお、各ロールの詳細については、後程セキュリティモデルの章で詳しくご説明します。
BigLake のユースケース
BigLake のユースケースとして、あらゆるデータ制限の排除が挙げられます。本来、異なるデータウェアハウス(DWH)やデータレイクでデータを管理するとサイロが発生し、データの移動が必要な場合はリスクとコストが増加します。
しかし、 BigLake でデータウェアハウス(DWH)やデータレイクを統合することで、基盤となるストレージ形式やシステムを意識することなく、データ分析を行うことが可能になります。これにより、ソースからのデータ複製や移動が不要となり、コスト削減や効率化を図ることができます。
さらに、 BigLake では、 Google Cloud (GCP)にまたがる API インターフェイスや Parquet などのオープンファイル形式、 Apache Spark などのオープンソース処理エンジンにより、細かなアクセス制御が可能です。
これらの機能により、10 年に及ぶ BigQuery のイノベーションを Google Cloud Storage 上のデータレイクに拡張し、柔軟で費用対効果の高いオープンレイクハウスアーキテクチャを実現します。
有名 SNS を運営する Twitter 社では、実際に BigQuery のストレージ機能を利用してデータ制限を取り除き、ユーザーの行動履歴や興味関心の把握に役立てています。その結果、わずか1秒の間に300万以上の集計を実行する広告パイプラインで、1日あたり数兆件のイベントに対してコンテンツを提供することができるようになりました。
このように、 BigLake を活用することで、様々なデータ制限を取り除き、自社の業務効率化や生産性向上を実現可能になります。データ活用の重要性が高まっている現代において、 BigLake はとても重要なソリューションであると言えるでしょう。
BigLake の料金体系
最後に、 BigLake の料金体系をご説明します。
BigLake の料金は、次のような BigLake テーブルのクエリに基づいています。
BigQuery の料金 | Google Cloud Storage で定義された BigLake テーブルに対するクエリに適用 |
BigQuery Omni の料金 | Amazon S3 および Azure Data Lake Storage Gen2 で定義された BigLake テーブルに対するクエリに適用 |
BigLake コネクタを使用したオープンソースエンジンからのクエリ | BigQuery Storage API を使用して対応する価格が適用 |
BigLake コネクタを使用したオープンソースエンジンからのクエリについては、上表の通り BigQuery Storage API を使用し、対応する価格が適用されますが、これは読み取られたバイト数と出力に応じて請求額が決定されます。
また、毎月 BigQuery で処理される最初の 1TB のデータは無料になるので、この点はかなり嬉しいポイントではないでしょうか?
まとめ
本記事では、 BigLake とは何か?という基礎的な内容から、 BigLake の要件や特徴、メリット、ユースケースなど、あらゆる観点から一挙にご紹介しました。
BigLake を活用することで、安全でパフォーマンスの高いデータレイクの実行や、大規模な統合ガバナンスと管理の実現など、企業は様々なメリットを享受できます。さらに、あらゆるデータ制限を排除でき、細やかなアクセス制御が可能になります。
これにより、自社のデータ活用の効果を最大化し、業務効率化や生産性向上に繋がります。データ活用の重要性が高まっている現代においては、 BigLake は注目すべきソリューションの一つであると言えるでしょう。
本記事を参考にして、ぜひ BigLake の導入を検討してみてはいかがでしょうか?
弊社トップゲートでは、Google Cloud (GCP) 利用料3%OFFや支払代行手数料無料、請求書払い可能などGoogle Cloud (GCP)をお得に便利に利用できます。さらに専門的な知見を活かし、
- Google Cloud (GCP)支払い代行
- システム構築からアプリケーション開発
- Google Cloud (GCP)運用サポート
- Google Cloud (GCP)に関する技術サポート、コンサルティング
など幅広くあなたのビジネスを加速させるためにサポートをワンストップで対応することが可能です。
Google Workspace(旧G Suite)に関しても、実績に裏付けられた技術力やさまざまな導入支援実績があります。あなたの状況に最適な利用方法の提案から運用のサポートまでのあなたに寄り添ったサポートを実現します!
Google Cloud (GCP)、またはGoogle Workspace(旧G Suite)の導入をご検討をされている方はお気軽にお問い合わせください。
メール登録者数3万件!TOPGATE MAGAZINE大好評配信中!
Google Cloud(GCP)、Google Workspace(旧G Suite) 、TOPGATEの最新情報が満載!