Google の ETL サービス「 Dataflow 」とは?概要、特徴、できること、料金体系まで徹底解説!
- Dataflow
- ETL
「 Dataflow 」というサービスをご存知でしょうか? Google Cloud(GCP)に搭載されている ETL サービスであり、 Dataflow を使うことで様々なデータ処理を高速で行うことができます。
本記事では、 Google の ETL サービス Dataflow について、概要、特徴、料金体系、できることまで、一挙にご紹介します。データ分析の業務に携わっている方は、ぜひ最後までご覧ください。
目次
ETL とは?
ETL とは「 Extract (抽出)、 Transform (変換)、 Load (書き出し)」の略であり、企業内のあらゆるシステムからデータを抽出し、共有する機能を搭載したツールです。
企業においては、多くのシステムが同時に存在しているケースが一般的です。営業、購買、生産、顧客管理など、様々な基幹システムがあり、異なるシステムからそれぞれデータを抽出するのは、時間や手間がかかります。
ETL を活用することで、複数システムからのデータ抽出や外部への書き出しを実行できるため、企業の生産性向上や業務効率化に直結します。
ETL に関しては、以下の記事が参考になります。
データの活用で生産性向上!「BIツール」と「DWH」や「ETL」との違いとは?
Google の ETL サービス「 Dataflow 」とは?
Dataflow は Google Cloud(GCP)に内包されている ETL ツールであり、サーバーレスかつフルマネージドのデータ処理サービスです。
Java や Python で処理を作り込むことができるのはもちろん、標準で提供されているテンプレートを使うことも可能です。クラウドストレージにアップロードした JDBC ドライバーを使用して、 Netezza や Exadata に接続できるテンプレートも用意されています。
また、 Dataflow は「 Apache Beam (オープンソースのフレームワーク)」で構築されたパイプライン処理を実行できるプラットフォームであり、 Apache Beam の実行環境としても利用することができます。パイプライン処理とは、マイクロプロセッサ内部での命令を分割し、それぞれを別の回路で実行することで、並行的に処理を進めるための技術です。
企業が保有する大規模かつ多岐にわたるデータを一元的に集約し、高速にデータを処理できる Dataflow は、企業がデータ活用を進める上で心強い武器になります。情報量の増加やデータの多様化が進み、企業におけるデータ活用の重要性が高まっている現代において、 Dataflow はあらゆる企業にとって必要なサービスだと言えるでしょう。
Dataflow の特徴
フルマネージドサービスとして提供
フルマネージドサービスとは、ほぼすべてのサーバー管理・運用をサービス提供者が行うサービスです。 Dataflow の場合は、サービス提供者である Google が責任を持って運用管理業務を代行してくれます。
そのため、サーバー障害などのトラブルが発生した時でも、ユーザー側で復旧作業を行う必要はありません。 Google の優秀なエンジニアチームが対応するため、手間なく安全な環境でサービスを運用することが可能になります。
フルマネージドサービスについては、以下の記事が参考になります。
マネージドサービスとフルマネージドサービスの違いとは?メリット・デメリットまで徹底解説!
面倒な環境構築が不要
本来、データ処理を行うためには動作環境を構築する必要があります。難しいコードを記述したり、問題なく動作するかテストをしたり、動作環境の構築は時間も手間もかかります。
その点、 Dataflow は Apache Beam で記述された処理を Dataflow 上で実行することで、最適な動作環境を自動的に構築します。そのため、自社の環境構築にかかる負荷を削減でき、生産性向上に大きく寄与します。
また、 Dataflow には「オートスケーリング」という機能が備えられており、自社の利用状況に合わせて、 Dataflow が自動的にリソースの拡大縮小を行ってくれます。つまり、管理者が利用状況を細かく管理する必要はなく、さらに生産的な業務に集中することができます。
Google Cloud(GCP)の他サービスと連携可能
Apache Beam には SDK ( Software Development Kit :ソフトウェア開発キット)が用意されており、これらを活用することで Dataflow を Google Cloud(GCP)の他サービスと簡単に連携させることができます。
以下、 Apache Beam で利用可能な SDK の一覧です。
- Cloud Storage
- Cloud Bigtable
- Cloud Pub / Sub
- Cloud Spanner
- BigQuery
例えば、 Cloud Pub / Sub と連携してデータ処理の結果をメッセージで通知したり、 BigQuery と連携して処理したデータを分析するような使い方が考えられます。もちろん、この他にも様々な利用方法が存在します。
まずは自社の実現したいことを明確にした上で、 Dataflow の活用方法を検討してみてください。
作業配分を自動で最適化
Dataflow には「作業配分の自動化と最適化」の機能が搭載されており、当初のスケジュールよりも遅延している作業を優先してくれるなど、管理者が設定しなくても Dataflow が作業の優先順位を自動的に判断してくれます。
そのため、人の手で細かい作業配分を都度設定する必要はなく、自社の業務効率化を実現することができます。
このように、本来は人が手作業で行うべき作業を自動化できる点が Dataflow の大きな特徴であり、世界中で多くの支持を集めている理由となっています。
Dataflow の料金体系
Dataflow のサービス料金はジョブ(データの処理)ごとに秒単位で課金される仕組みとなっています。
また、 Dataflow を実行すると「 Google Compute Engine 」を使用した「ワーカー」が作成され、このワーカーの起動時間に応じて料金が発生します。Dataflow のワーカーは3つのタイプに分かれており、それぞれ利用料金が異なります。
以下、 Dataflow のワーカーリソース料金をタイプ別にまとめました。
Dataflow ワーカータイプ | vCPU (1 時間あたり) |
メモリ (1 GB 1時間あたり) |
データ処理量 (1 GB あたり) |
---|---|---|---|
バッチ | 0.0728米ドル | 0.0046241米ドル | 0.0143米ドル |
FlexRS | 0.0437米ドル | 0.0027745米ドル | 0.0143米ドル |
ストリーミング | 0.0897米ドル | 0.0046241米ドル | 0.0234米ドル |
なお、上記は東京リージョンでの金額であり、地域ごとに若干の料金差があります。自社が利用しているリージョンを事前に確認しておきましょう。
また、 Google が提供している料金計算ツールを使うことで、請求金額を簡単に算出できるため、積極的に活用することをオススメします。
Dataflow でできること
自社の生産性を向上できる
前章でもご説明した通り、 Dataflow を使うことで、様々な作業を自動化することができます。動作環境の構築やオートスケーリング、作業配分の自動化など、自社の業務効率化に繋がる機能が多数搭載されています。
また、 Dataflow を Google Cloud(GCP)の他サービスと連携すれば、自社の要件に合わせて様々なことを実現可能です。企業におけるデータ活用の重要性が高まっている現代において、 Dataflow は自社の生産性向上のために必要不可欠なサービスであると言えます。
ストリーム分析を実行できる
ストリームとは、「小川、流れ、連続」などの意味を持つ単語であり、 IT 分野におけるストリーム分析とは、データの流れを連続して処理・分析することを指す言葉です。ストリーム分析を行うことで、際限なく発生する膨大なデータをリアルタイムに分析することが可能になります。
Google Cloud(GCP)に取り込んだデータを Dataflow で処理することで、正確な計算処理を素早く簡単に実行することができ、ストリーミング分析に必要なデータを手間なく揃えることできます。
そして、 Dataflow を BigQuery と連携すれば、膨大なデータの高速処理・分析が可能になり、企業にとって価値のある情報をリアルタイムに取得できるため、経営戦略の策定などに効果的に利用することが可能になります。
リアルタイム AI を実現できる
リアルタイム AI とは、取得したリアルタイムデータを基にして、瞬時に人工知能( AI )が予測分析、問題検出などを実行する技術のことです。従来、人間では膨大なデータに対する予測分析などは時間を要していましたが、リアルタイム AI を活用することで迅速な判断が可能になります。
Dataflow を活用することで、 Google Cloud(GCP)の AI Platform と TensorFlow Extended ( TFX )にストリーミングイベントを送信することができます。これにより、人工知能( AI )によるリアルタイムな予測分析や問題検出などを実現可能です。
現在、人工知能( AI )は様々な分野で活躍しており、かつ、リアルタイム性を求められるケースも増えていますが、 Dataflow はリアルタイム AI を実現する上で企業を力強くサポートしてくれます。
Dataflow の活用事例
M 社では、各マイクロサービスの運用において「 Cloud Spanner 」「 BigQuery 」「 Cloud Storage 」「 Cloud SQL 」「 Cloud Datastore 」などの Google Cloud(GCP) のソリューションを利用していますが、マイクロサービスの内容によっては、 Google Cloud(GCP) のソリューション間でデータを加工・移動する必要があります。
例えば、 Cloud Spanner で取得したデータを Cloud Storage に保存したり、 Cloud Datastore に保管されているデータを Cloud Storage に移してバックアップを取る、といった内容が挙げられます。
M 社では、このような Google Cloud(GCP)のサービス間でのデータ加工・移動を Dataflow で実現しています。また、データを移動する場合、毎回同じような処理を行うケースも多いため、利用頻度の高いデータの加工・移動処理をテンプレート化し、社内の関係者が手間なく効率的に作業を進められる環境を整えています。
Apache Beam で構築したコードを Dataflow にデプロイして実行しますが、コードをあらかじめビルドして Google Cloud Storage に登録しておき、必要なパラメータを実行時に指定して Dataflow でパイプラインを起動する Dataflow Template という機能があります。
この Dataflow Template の機能を使うことで、 GUI ( Graphical User Interface :マウスで直感的に操作できるインターフェイス)での操作や、 Dataflow API を経由したデータ処理のパイプライン処理を実現しています。
このように、 Google Cloud(GCP)内の異なるサービス間同士のデータ移動には Dataflow が有効な選択肢となります。さらに M 社と同じく、 Dataflow Template を活用すれば、より効率的にデータの加工や移動を行うことが可能になります。
Dataflow が社内の業務効率化に大きく寄与し、また、Google Cloud(GCP)の様々なサービスと連携できる利点を最大限に活用した事例をご紹介しました。
※参考文献:メルペイにおける Dataflow Template の活用
まとめ
本記事では、 Google の ETL サービス Dataflow について、概要、特徴、料金体系、できることまで、一挙にご紹介しました。
Dataflow に搭載されている多彩な機能により、自社のデータ活用における業務効率化を図ることができます。また、 Dataflow を活用することで、ストリーム分析やリアルタイム AI など、企業に求められる高度な運用を実現することができます。
そして、 Google Cloud(GCP)を契約するのであれば、トップゲートがオススメです。トップゲート経由で契約することで
- Google Cloud(GCP)の利用料金が3% OFF
- クレジットカード不要で請求書払いが可能
- 導入後サポートが充実
など、様々なメリットを享受することができます。
本記事を参考にして、 Google Cloud(GCP)の導入および Dataflow の活用を検討してみてはいかがでしょうか。
弊社トップゲートでは、専門的な知見を活かし、
- Google Cloud (GCP)支払い代行
- システム構築からアプリケーション開発
- Google Cloud (GCP)運用サポート
- Google Cloud (GCP)に関する技術サポート、コンサルティング
など幅広くあなたのビジネスを加速させるためにサポートをワンストップで対応することが可能です。
Google Workspace(旧G Suite)に関しても、実績に裏付けられた技術力やさまざまな導入支援実績があります。あなたの状況に最適な利用方法の提案から運用のサポートまでのあなたに寄り添ったサポートを実現します!
Google Cloud (GCP)、またはGoogle Workspace(旧G Suite)の導入をご検討をされている方はお気軽にお問い合わせください。
また、弊社トップゲートでは、Google 技術を利用したアプリケーション開発や、DWH、BigQuery活用、機械学習に関するコンサルティングサービスを行っております。ぜひ詳細はリンク先にてご確認ください!
メール登録者数3万件!TOPGATE MAGAZINE大好評配信中!
Google Cloud(GCP)、Google Workspace(旧G Suite) 、TOPGATEの最新情報が満載!