効率的なデータクレンジングを実現する Cloud Dataprep とは?メリットや活用事例まで一挙に紹介!
- BigQuery
- Cloud
- Cloud Dataprep
- データクレンジング
Cloud Dataprep というサービスをご存知でしょうか? Google と Trifacta が共同開発したデータクレンジングツールです。 Cloud Dataprep を活用することで、データの変換・加工を手間なく行うことができます。
本記事では、 Cloud Dataprep とは何か?という基礎的な内容に加えて、 Cloud Dataprep のメリットやできること、活用事例まで一挙にご紹介します。
目次
Cloud Dataprep とは?
Cloud Dataprep は Google Cloud (GCP)に内包されているデータクレンジングサービスです。構造化データと非構造化データを視覚的に探索し、簡単にクレンジング処理を行うことができます。
データクレンジングとは、その名前の通り「データをクレンジング(洗浄)すること」を意味する言葉です。データクリーニングという名称が使われることもあります。つまり、自社が保有するデータを綺麗な形に整えることがデータクレンジングの目的です。
Cloud Dataprep は Google と Trifacta (米国のソフトウェア会社)が共同開発したサービスであり、 Google 公式サイトでは「 Cloud Dataprep by Trifacta 」という名称で掲載されています。便宜上、本記事では Cloud Dataprep と記載していますので、その点はあらかじめご承知ください。
Cloud Dataprep はサーバーレスで提供されているため、規模を問わずに利用できるほか、自社でインフラ設備を整える必要もありません。さらに GUI で操作できる点も Cloud Dataprep の大きな特徴であり、複雑かつ煩雑なデータ処理を簡単に実行することが可能です。
このように、 Cloud Dataprep は迅速かつ直感的にデータ処理を実行できるため、業務の生産性を高めたい場合には最適なツールであると言えます。
データクレンジングに関心のある方は以下の記事がオススメです。
データ活用に欠かせないデータクレンジングとは?具体的な方法を4ステップで解説!
Cloud Dataprep の対応フォーマット
本章では Cloud Dataprep が対応しているフォーマットをご紹介します。入力と出力に分けて見ていきましょう。
入力フォーマット
Cloud Dataprep への入力は以下のフォーマットに対応しています。
- CSV
- Excel
- JSON
- Plain Text
- Avro
- BigQuery
- UTF
入力時は Cloud Dataprep の画面から直接データをアップロードできます。また、 Cloud Storage 上のデータや BigQuery のテーブルを参照して利用することも可能です。
出力フォーマット
Cloud Dataprep からの出力は以下のフォーマットに対応しています。
- CSV
- JSON
- Avro
Cloud Dataprep から出力したデータ Cloud Storage へ取り込んで保管したり、 Avro で出力したものを BigQuery へ格納することもできます。
Cloud Dataprep のサンプルアーキテクチャ
以下、 Cloud Dataprep のサンプルアーキテクチャを図で示します。
※出典・参照: Google Cloud 公式ページ「新たな柔軟性: BigQuery や Dataflow で Dataprep ジョブを実行」
Cloud Dataprep の BigQuery プッシュダウンを使用すると、 BigQuery または Dataflow のどちらでジョブを実行するか?を柔軟に選択できます。
仮に BigQuery を選択した場合は BigQuery SQL ステートメントでデータパイプラインを部分的または完全に変換できるかどうかが Dataprep によって自動的に判断されます。そして、 BigQuery で実行できないパイプラインの部分は Dataflow で実行されます。
また、 BigQuery の機能を利用するとフィルタや結合、ユニオン、集計などの操作で効率性の高いデータ変換が可能になります。 Dataprep BigQuery プッシュダウンを活用することで、 IAM と OAuth のサポートにより、パフォーマンス向上やコスト最適化、セキュリティ向上を実現できます。
Cloud Dataprep のメリット
Cloud Dataprep には、どのようなメリットが存在するのでしょうか。代表的なものをいくつかご紹介します。
サーバーレスで提供
Cloud Dataprep は Google パートナー企業である Trifacta が運営する統合パートナーサービスであり、業界トップクラスのデータ準備ソリューションをベースにしています。
そして、 Google は Trifacta との密な連携により、シームレスなユーザーエクスペリエンスを実現しています。そのため、事前のソフトウェアインストールや追加のライセンス費用は不要であり、継続的な運用オーバーヘッドも発生しません。
Cloud Dataprep はフルマネージドかつサーバーレスで提供されており、企業ごとのニーズに応じてオンデマンドでスケーリングされるため、担当者は手間なく運用でき、分析に専念することが可能になります。
使いやすい操作性
Cloud Dataprep は、最適なデータ変換操作を自動で提案・予測してくれます。変換の流れや配列をあらかじめ定義しておけば、 Dataprep が内部的に Dataflow または BigQuery を使用し、あらゆるサイズのデータセットを数回のクリックで処理できるようにします。
そのため、複雑なコードを記述する必要はなく、誰でも簡単にデータクレンジングを実行できます。本来、データの変換・加工を行うためには、難しいコーディングが必要であり、専門的な知識を持った人しか操作できないため、この点は Cloud Dataprep の大きなメリットであると言えます。
Dataflow に関心のある方は以下の記事がオススメです。
Google の ETL サービス「 Dataflow 」とは?概要、特徴、できること、料金体系まで徹底解説!
BigQuery に関心のある方は以下の記事がオススメです。
超高速でデータ分析できる!専門知識なしで扱えるGoogle BigQueryがとにかくスゴイ!
迅速なデータ探索と異常検出
Cloud Dataprep を活用することで、視覚的なデータ分布により、データを瞬時に把握・探索できます。例えば、スキーマやデータ型、可能な結合、異常(欠損値、外れ値、重複値)などを自動的に検出することが可能です。
これにより、本来は長い時間を要するデータ品質評価作業を省略し、すぐにデータの探索・分析に着手できます。データ分析を迅速に行うことで、後続アクションを速やかに進められるため、スピーディーに自社の課題解決や業務効率化を実現でき、競合優位性に直結します。
Cloud Dataprep でできること
Cloud Dataprep には様々なメリットが存在し、手間なくデータクレンジングを行うことが可能です。それでは、 Cloud Dataprep を使うことで何ができるのでしょうか?具体的なイメージが湧きやすいように、身近な例を2つご紹介します。
住所データから都道府県だけを切り出す
住所データの都道府県から番地までの情報が一つのデータとして存在している場合、フィルタリングができずに苦労した経験はありませんか?このような場合、 Cloud Dataprep で解決することができます。「都」「道」「府」「県」という文字を指定して別カラムに抽出することで、住所データの都道府県のみを別項目として分離します。これにより、データの利便性が大きく向上します。
電話番号からハイフンを削除する
Cloud Dataprep を使えば、電話番号からハイフンを除去し、数字のみに変換することができます。電話番号が入力されているカラムを指定し、パターンを選択して全ての情報を統一化するだけで完了します。電話番号のハイフンの有無を統一することで、一定のルールに基づいた一括処理が可能になるため、地味ですが実用性は高いと言えます。
ここでは、イメージが湧きやすいように基本的かつ身近な2つの例を挙げましたが、 Cloud Dataprep はさらに複雑なデータ変換・加工を行うことも可能です。自社においてどのような活用ができるのか、ぜひ考えてみてください。
Cloud Dataprep の料金体系
Cloud Dataprep には2つのエディションが存在し、それぞれ料金が異なります。なお、 Cloud Dataprep の表示料金は米ドルですが、請求先アカウントで指定されている通貨(円)に換算されて請求されます。
以下の表では「1米ドル = 128.14 円」の為替レートで計算しています。
エディション | 月額料金 |
---|---|
Starter エディション(1ヶ月契約) | 12,814円 + 使用料金 |
Starter エディション(1年契約) | 10,251円 + 使用料金 |
Professional エディション(1ヶ月契約) | 64,068円 + 使用料金 |
Professional エディション(1年契約) | 51,254円 + 使用料金 |
このように、 Starter エディションよりも Professional エディションの方が料金が高く、1ヶ月契約よりも1年契約でサービスを利用した方がお得な料金で利用できることがわかります。
そして、 Cloud Dataprep の使用料金は「設計」と「実行」の2つの変数に分けられます。設計はプロジェクト単位で料金が計算され、ユーザー数に上限はありません。また、実行料金は Dataprep でジョブを実行する Dataflow の使用量で構成されます。
また、参考までに各エディションでできることの比較表を記載します。 Google Cloud 公式のマーケットプレイスを参照しており、項目が英語になっていますのであらかじめご承知おきください。
Starter エディション | Professional エディション | |
---|---|---|
Predictive Data Transformation | ○ | ○ |
Collaboration & Sharing | ○ | ○ |
Connectivity to Cloud Storage 、 Files 、 Google Sheets 、 BigQuery | ○ | ○ |
Data Profiling | ○ | ○ |
Adaptive Data Quality | × | ○ |
Universal Data Connectivity | × | ○ |
Scheduling and Orchestration for Data Pipelines | × | ○ |
Customer Success | × | ○ |
この表からわかるように、 Starter エディションよりも Professional エディションの方が数多くの記載が搭載されています。
Cloud Dataprep の活用事例
Cloud Dataprep は多くの企業で活用されており、業務効率化や生産性向上に大きく貢献しています。本章では、具体的な Cloud Dataprep の活用事例を2つご紹介します。
マーケティングエージェンシー
データベースのマーケティングソリューションを専門とするマーケティングエージェンシーの Merkle は、データ活用のために BigQuery を活用しており、分析用の新しいデータを BigQuery に取り込むためのツールとして Cloud Dataprep を採用しています。
同社の IT アーキテクトである Henry Culver 氏は以下のように述べています。
「 Cloud Dataprep を使用すると、新しいデータセットをすばやく表示して理解でき、その柔軟性がデータ変換のニーズをサポートします。 GUI は適切に設計されているため、学習曲線は最小限に抑えられます。私たちの最初のデータ準備作業は、数時間や数日ではなく、数分で完了します。」
手間なく迅速にデータを取り込むことができる Cloud Dataprep を活用して、自社の生産性向上を実現している事例のご紹介でした。
ベンチャー開発センター
1996年に設立された Venture Development Center (ベンチャー開発センター)は、クライアントがビジネスの変革とデータの収益化に繋がる可能性のあるビッグデータのユースケースを定義、特定、実装するのを支援するアドバイザリーサービス会社です。同社では、自社サービスの提供において Cloud Dataprep と BigQuery を活用しています。
同社の代表である Matthew Staudt 氏は以下のように述べています。
「 Cloud Dataprep と BigQuery を備えた Google Cloud (GCP)が、まさに私たちが探していたものであることがすぐにわかりました。データカタログ、 QA 、配信サイクルへの能力と動きを発展させるにつれて、 Cloud Dataprep はこれを迅速かつ適切に達成することを可能にします。」
このように、膨大かつ多様なビッグデータを扱うベンチャー開発センターにおいても、 Cloud Dataprep は問題なく動作し、迅速かつ正確なデータクレンジングを実行していることが伺えます。
データクレンジングは Google Cloud (GCP)がオススメ
ここまで、 Cloud Dataprep について詳しくご紹介しましたが、データは綺麗に整理して終わりではありません。そのデータを分析して、経営戦略に反映してこそ初めて真の価値を発揮します。その観点では、 Google Cloud (GCP)でデータクレンジングを行うことで、すべてのプロセスを一気通貫で実現することができます。
Google Cloud (GCP)とは、 Google が提供しているパブリッククラウドサービスです。同じ種別のサービスとしては Microsoft 提供の Azure や Amazon 提供の AWS などが挙げられます。主に IaaS ・ PaaS の領域をカバーしており、用途に応じて利用できる様々な構成要素がサービスとして提供されています。
Google Cloud (GCP)には、高性能なビッグデータ分析サービスである BigQuery が搭載されています。そして、データ分析を行うための前準備として Cloud Dataprep を活用し、自社が保有するデータを綺麗に整理することで、スムーズなデータ分析を実現できます。
BigQuery は ビッグデータ解析サービスであり、通常では長い時間かかるクエリを、数 TB (テラバイト)、数 PB (ペタバイト)のデータに対して、数秒もしくは数十秒で終わらせることができます。また、膨大なデータを保管するデータウェアハウス(DWH)としての機能も兼ね備えています。
つまり、 Google Cloud (GCP)を活用することで、データの蓄積からデータの整理、そしてデータ分析まで、データ活用におけるすべてのプロセスを一つのサービスで完結できるというわけです。さらに、 Cloud Dataprep と BigQuery はどちらも100%クラウドで提供されているサービスであるため、サーバーレスで柔軟に拡張できる点もメリットの一つです。
加えて、 BigQuery は通常のデータベースとは異なり、データベースに関する専門知識がなくても直感的に操作することができます。料金も 1TB (テラバイト)500円程度とリーズナブルであり、分析前にデータ量を確認することで事前に料金の目安を把握できるため、安心してサービスを利用可能です。
このように、 Google Cloud (GCP)でデータクレンジングを行うことで、企業は多くのメリットを享受できます。 Cloud Dataprep や BigQuery は、他の多彩な Google Cloud (GCP)サービスともシームレスに連携できるため、あらゆるシーンにおける業務効率化や生産性向上を期待できます。
自社のデータ活用を進めていく上で、 Google Cloud (GCP)はとても有効な選択肢になると言えるでしょう。
Google Cloud (GCP) に関しては、以下の記事で詳しく解説しています。
Google Cloud Platform™ (GCP) とは
BigQuery に関しては、以下の記事で詳しく解説しています。
超高速でデータ分析できる!専門知識なしで扱えるGoogle BigQueryがとにかくスゴイ!
データウェアハウス(DWH)に関しては、以下の記事で詳しく解説しています。
データウェアハウス(DWH)とは?メリットや活用例まで一挙に紹介
まとめ
本記事では、 Cloud Dataprep とは何か?という基礎的な内容に加えて、 Cloud Dataprep のメリットやできること、活用事例まで一挙にご紹介しました。
データ活用の重要性が叫ばれている現代において、 Cloud Dataprep はとても有効なソリューションであると言えます。 Cloud Dataprep を活用することで、手間なく迅速にデータクレンジングを行うことが可能になります。
また、データは綺麗に整理して終わりではありません。いくら貴重なデータをたくさん保有していても、一切使わなければ何も持っていないのと同じことです。自社のデータを分析・活用して、経営戦略に反映してこそ初めて真の価値を発揮します。
その観点では、 Google Cloud (GCP)でデータクレンジングを行うのがオススメです。 Google Cloud (GCP)に搭載されている Google Cloud Dataprep や BigQuery を活用することで、データの蓄積、整理、分析まで、データ活用におけるすべてのプロセスを一気通貫で実行できます。
本記事を参考にして、ぜひ Google Cloud (GCP)の導入を検討してみてはいかがでしょうか?
また、記事の中でご紹介した「データの整形」や「データの整理」は、会社の状況によっては自社完結が難しいケースもあると思います。そのような場合は、プロのサポートを受けられるサービスを利用するのも有効な選択肢の一つです。
弊社トップゲートでも Google Cloud (GCP)に関するコンサルティングサービスを提供していますので、自社のデータを活用してデータドリブン経営を実現したいと考えている方は、ぜひ以下のサービスもご検討ください。導入前の問い合わせも受け付けていますので、まずはお気軽にご相談いただければと思います。
Google の技術活用サポートサービス「T-PAS (TOPGATE Professional Advisory Service)」
弊社トップゲートでは、Google Cloud (GCP) 利用料3%OFFや支払代行手数料無料、請求書払い可能などGoogle Cloud (GCP)をお得に便利に利用できます。さらに専門的な知見を活かし、
- Google Cloud (GCP)支払い代行
- システム構築からアプリケーション開発
- Google Cloud (GCP)運用サポート
- Google Cloud (GCP)に関する技術サポート、コンサルティング
など幅広くあなたのビジネスを加速させるためにサポートをワンストップで対応することが可能です。
Google Workspace(旧G Suite)に関しても、実績に裏付けられた技術力やさまざまな導入支援実績があります。あなたの状況に最適な利用方法の提案から運用のサポートまでのあなたに寄り添ったサポートを実現します!
Google Cloud (GCP)、またはGoogle Workspace(旧G Suite)の導入をご検討をされている方はお気軽にお問い合わせください。
メール登録者数3万件!TOPGATE MAGAZINE大好評配信中!
Google Cloud(GCP)、Google Workspace(旧G Suite) 、TOPGATEの最新情報が満載!