Google のデータ統合サービス「 Cloud Data Fusion 」とは?機能、特徴、料金体系、できることまで徹底解説!
- Cloud
- Cloud Data Fusion
「 Cloud Data Fusion 」というサービスをご存知でしょうか? Google Cloud(GCP)に搭載されているデータ統合サービスであり、 Cloud Data Fusion を使うことで、社内の様々なデータを統合し活用することが可能になります。
本記事では、 Google のデータ統合サービス Cloud Data Fusion について、概要、機能、特徴、料金体系、できることまで、一挙にご紹介します。データ分析やデータ統合の業務に携わっている方は、ぜひ最後までご覧ください。
Google のデータ統合サービス「 Cloud Data Fusion 」とは?
Cloud Data Fusion は Google Cloud(GCP)に内包されているサーバーレスかつフルマネージドなデータ統合サービスであり、主に ETL の領域をカバーしています。
ETL とは、「 Extract (抽出)」「 Transform (変換)」「 Load (格納)」の頭文字を取ったもので、データを抽出し、使える形式に変換し、最終的に格納するためのツールです。
Cloud Data Fusion は100%クラウドで提供されるサービスであり、多くの機能がデフォルトで用意されているため、様々なデータソースを組み合わせてデータ統合を行うことができます。また、追加コストなしで150以上の豊富なプラグインを利用できるため、あらゆる要件に対応可能です。
加えて、難しいコードを使う必要がなく、 GUI (Graphical User Interface :マウスだけで視覚的に操作できるインターフェース)で簡単に扱える点も Cloud Data Fusion の大きな特徴となっています。
ETLに関して理解を深めたい方は以下の記事がオススメです。
データの活用で生産性向上!「BIツール」と「DWH」や「ETL」との違いとは?
Cloud Data Fusion の機能
複数データソースからのデータ統合
Cloud Data Fusion のメイン機能がデータ統合です。 Cloud Data Fusion を活用することで、複数のデータソースを組み合わせて、様々なデータを効率的に統合することができます。
バッチ処理とリアルタイム処理の両方に対応する既製の変換を提供しており、カスタマイズした接続と変換の内部向けライブラリを作成して、チーム全体での検証、共有、再利用を実現します。そのため、効率的なデータエンジニアリング基盤を構築でき、生産性の向上に直結します。
Google Cloud(GCP)の他サービスとの統合
Google Cloud(GCP) のサービスは、機能間のシームレスな連携が特徴の一つです。 Cloud Data Fusion を Google Cloud(GCP)の他サービスと統合することで、安全性を確保しながらデータを迅速に分析することができます。
例えば、 Cloud Data Fusion でデータを BigQuery に移行・統合することで、高速なデータ分析を実現できるほか、イテレーション(一連の工程を短期間で繰り返す開発サイクル)の開発環境を容易に構築することが可能になります。
オンプレミス DWH からのデータ移行
本来、 Cloud Data Fusion は複数のデータソースからデータを統合するものですが、データをそのまま移行することも可能です。 JDBC ドライバーをインポートすることで「 Netezza 」や「 Exadata 」などの DWH からデータを移行することができます。
そのため、自社で運用しているオンプレミスの DWH から、新しい環境へデータ移行したい場合にも効果を発揮します。ただし、 Google Cloud(GCP)側からオンプレミス環境にアクセスできるようにネットワーク環境を整える必要がある点は注意しておきましょう。
オンプレミスからのデータ移行に関しては、以下の記事が参考になります。
【意外と簡単?】オンプレミスの DWH から BigQuery へのデータ移行を徹底解説!
【あなたは知ってる?】多額のコストを掛けずにオンプレからクラウドに DWH を移行する方法
Cloud Data Fusion の特徴
フルマネージドサービスとして提供
フルマネージドサービスとは、ほぼすべてのサーバー管理・運用をサービス提供者が行うサービスです。 Cloud Data Fusion の場合は、サービス提供者である Google が責任を持って運用管理業務を代行してくれます。
そのため、サーバー障害などのトラブルが発生した時でも、ユーザー側で復旧作業を行う必要はありません。 Google の優秀なエンジニアチームが対応するため、手間なく安全な環境でサービスを運用することが可能になります。
フルマネージドサービスについては、以下の記事が参考になります。
マネージドサービスとフルマネージドサービスの違いとは?メリット・デメリットまで徹底解説!
高い拡張性
Cloud Data Fusion には、150以上の豊富なプラグインが搭載されています。これらのプラグインは追加料金なしで無料で利用できるため、コストをかけずに自社の実現したいことを叶えることができます。
例えば、自社の環境内で発生しているエラーを収集する「 ErrorCollector 」や BigQuery のコンテンツを読み取る「 BigQuery 」などが挙げられます。他にも、フラットスキーマから階層構造を生成する「 Transform 」やレコードの重複削除を実行する「 Deduplicate 」など、多種多様な機能が用意されています。
希望する内容がない場合は、 Cloud Data Fusion のプラグイン API を使用して独自のプラグインを構築することも可能です。このように Cloud Data Fusion は拡張性が高く、自社の要望に合わせて様々なカスタマイズを施すことが可能です。
GUI ( Graphical User Interface )で操作可能
GUI とは、「 Graphical User Interface 」の略であり、マウスだけで視覚的に操作できるインターフェースを意味する言葉です。 Cloud Data Fusion は GUI による操作が可能なため、難しいコードを書く必要はありません。
専門知識を持っていなくても直感的に扱うことができ、効率的にデータ統合を進めていくことができるため、結果として自社の生産性向上に直結します。 GUI に対応している点は Cloud Data Fusion の大きな特徴と言えるでしょう。
Cloud Data Fusion と Google Cloud(GCP)との統合
Cloud Data Fusion は Google Cloud(GCP) で提供されているサービスのため、他の Google Cloud(GCP)ソリューションともシームレスに統合できます。
例えば、以下の Google Cloud(GCP)サービスとの統合が可能になります。
Google Cloud(GCP)サービス | 概要 |
---|---|
Google Kubernetes Engine( GKE ) | Google のインフラストラクチャを使用して、コンテナ化されたアプリケーションのデプロイ、管理、スケーリングを行うマネージド環境を構築できるサービス |
Dataproc | オープンソースのデータツールを利用してバッチ処理、クエリ実行、ストリーミング、機械学習を行える Spark / Hadoop サービス |
Google Cloud Key Management Service ( KMS ) | 暗号化キーの作成や管理をクラウドベースで行うことができるサービス |
Cloud SQL | スケーラブルなデータベース構築や運用管理の効率化を実現できるサービス |
Cloud Storage | Google Cloud(GCP) でオブジェクトを保存するためのストレージサービス |
Cloud Console | web ベースで利用できる Google Cloud(GCP) の統合型管理コンソール |
Google Cloud のオペレーション スイート(監査ログのみ) | Google Cloud 環境の状態をモニタリングできるサービス |
このように、 Cloud Data Fusion は様々な Google Cloud(GCP)サービスと統合ができるため、自社の希望や要件に合わせて、より効率的な運用を実現することが可能になります。
Cloud Data Fusion の活用事例
Cloud Data Fusion を使うことで様々な開発が可能になります。
例えば、アメリカ合衆国のアリゾナ州フェニックス市では、 Cloud Data Fusion を活用して交通管理の課題解決を実現しています。
フェニックス市は人口100万人を超える大都市であり、何らかの交通課題が発生した場合、同市内はもちろん他の周辺地域にも大きな影響を与える可能性があります。そのため、交通管理機関が Cloud Data Fusion を活用し、膨大な交通データをリアルタイムに収集・管理することで、交通課題の発生を抑止しています。
具体的には、400台以上のセンサーを市内に設置し、取得した交通データをクラウド環境へリアルタイムに転送し見える化する仕組みを Cloud Data Fusion で構築しています。このように Cloud Data Fusion を活用することで、素早く簡単にすべての地域の交通データへアクセスすることが可能になりました。
ご紹介した開発内容はあくまで一例であり、 Cloud Data Fusion を使えば他にも様々なことを実現できます。前章で触れた通り、 Cloud Data Fusion には豊富なプラグインが搭載されているため、柔軟にカスタマイズができますし、コードを意識せずに使えるビジュアル変換も可能なため、専門知識がなくても直感的に操作できる点も嬉しいポイントです。
Cloud Data Fusion の料金体系
Cloud Data Fusion のサービス料金は「 Cloud Data Fusion のインスタンスが作成されてから削除されるまでの時間(分単位)」で課金が発生します。
また、 Cloud Data Fusion の課金体系は「パイプラインの開発」と「パイプラインの実行」の2つの機能に分けられています。以下、それぞれのパターンについてご説明します。
パイプラインの開発
Cloud Data Fusion には「 Developer 」「 Basic 」「 Enterprise 」の3つのエディションが存在しており、各エディションごとに料金が異なります。
以下、パイプライン開発における Cloud Data Fusion の利用料金を表にまとめました。
Cloud Data Fusion のエディション | 1インスタンスごとの1時間あたりの料金 |
---|---|
Developer | 0.35米ドル |
Basic | 1.80米ドル |
Enterprise | 4.20米ドル |
なお、 Basic エディションでは、アカウントごとに毎月最初の120時間は無料で利用できます。各エディションごとの細かい違いは Google 公式ページをご参照ください。
パイプラインの実行
パイプラインの実行に関しては、 Cloud Data Fusion がパイプラインを実行するために作成する「 Dataproc クラスタ」の Dataproc の利用量に応じて課金が発生します。
Dataproc とは、オープンソースのデータツールを利用して「バッチ処理」「クエリ実行」「ストリーミング」「機械学習」などを行うことができる Spark / Hadoop のサービスです。 Dataproc の料金は、Dataproc クラスタを作成してから削除するまでの時間に応じて、課金が発生する仕組みになっています。
Dataproc の料金体系について、詳しくは Google 公式ページをご参照ください。
なお、 Google が提供している「料金計算ツール」を使えば、簡単に料金を算出できるため、積極的に利用することをオススメします。
Cloud Data Fusion でできること
スケーラブルなデータレイクを構築できる
データレイクとは、膨大な量のデータをそのまま(生データのまま)格納することができる「データの保管場所」を意味する言葉です。
Cloud Data Fusion を活用することで、オンプレミスのプラットフォームから取得した様々なデータを統合し、 Google Cloud(GCP)上に手間なくデータレイクを構築できます。 Cloud Data Fusion はクラウドで提供されているサービスのため、データレイク自体がスケーラブル(自由に拡大縮小できること)な構成をとれる点も重要なポイントです。
さらに、本来データレイクを構築するためには、コーディング(プログラミング言語を使ってソースコードを作成すること)の知識が必要になりますが、 Cloud Data Fusion は GUI で直感的に操作できるため、専門知識を持ったエンジニアを探す必要はなく、簡単にデータレイクを構築することが可能です。
データレイクに関しては、以下の記事が参考になります。
Google Cloud (GCP) で構築できる「データレイク」とは?概要、メリット、構築方法、ユースケースまで徹底解説!
BigQuery との連携で高品質な DWH を開発できる
BigQuery とは、 Google Cloud(GCP)に搭載されている高性能なビッグデータ解析サービスです。 Cloud Data Fusion を BigQuery と連携することで、 BigQuery 内に処理速度の速いクラウドベースの DWH を開発することができます。
その後、 BigQuery でデータを分析すれば、自社の課題や顧客のニーズなど様々な情報を見える化することができ、コスト削減や売上向上などあらゆる観点から、リアルデータに基づいた有効的な経営判断を行うことが可能になります。
BigQuery に関しては、以下の記事が参考になります。
超高速でデータ分析できる!専門知識なしで扱えるGoogle BigQueryがとにかくスゴイ!
様々なデータ分析環境を統合できる
現在、オンプレミスのデータマート(企業が保有するデータを使いやすい形に整理したデータベースのこと)は多くの種類が存在しており、これらを全て統合するのはとても困難です。暫定的な統合ができたとしても、あくまでその場しのぎの対応に留まってしまい、データ品質やセキュリティの面で課題が残ります。
Cloud Data Fusion には多様なコネクタや直感的に使いやすいインターフェースなどが標準で搭載されているため、様々な形式のデータマートから効率的にデータを統合し、自社で利用しやすい形で管理・運用することが可能になります。
データマートに関して理解を深めたい方は以下の記事がオススメです。
データ分析基盤の一つであるデータマート概要と設計ポイントをご紹介!
データ分析の歴史から紐解く!データウェアハウスとデータマートの違いを徹底解説
まとめ
本記事では、 Google のデータ統合サービス Cloud Data Fusion について、概要、機能、特徴、料金体系、できることまで、一挙にご紹介しました。
Cloud Data Fusion は豊富な無料プラグインや直感的に使える GUI など、嬉しい機能を多数備えており、企業のデータ活用を力強くサポートするサービスです。データレイクの構築や DWH の開発を行うことができ、自社の生産性向上に大きく寄与します。
そして、 Google Cloud(GCP)を契約するのであれば、トップゲートがオススメです。トップゲート経由で契約することで
- Google Cloud(GCP)の利用料金が3% OFF
- クレジットカード不要で請求書払いが可能
- 導入後サポートが充実
など、様々なメリットを享受することができます。
本記事を参考にして、 Google Cloud(GCP)の導入および Cloud Data Fusion の活用を検討してみてはいかがでしょうか。
弊社トップゲートでは、専門的な知見を活かし、
- Google Cloud (GCP)支払い代行
- システム構築からアプリケーション開発
- Google Cloud (GCP)運用サポート
- Google Cloud (GCP)に関する技術サポート、コンサルティング
など幅広くあなたのビジネスを加速させるためにサポートをワンストップで対応することが可能です。
Google Workspace(旧G Suite)に関しても、実績に裏付けられた技術力やさまざまな導入支援実績があります。あなたの状況に最適な利用方法の提案から運用のサポートまでのあなたに寄り添ったサポートを実現します!
Google Cloud (GCP)、またはGoogle Workspace(旧G Suite)の導入をご検討をされている方はお気軽にお問い合わせください。
メール登録者数3万件!TOPGATE MAGAZINE大好評配信中!
Google Cloud(GCP)、Google Workspace(旧G Suite) 、TOPGATEの最新情報が満載!