Google Cloud (GCP)でデータサイエンスを実現! MLOps 推進に寄与するソリューションを一挙に解説
- MLOps
- データサイエンス
本記事は、2021年11月11日に開催された Google の公式イベント「 Google Cloud ML サミット」において、 Google Cloud の AI/ML スペシャリストである児玉敏男氏が講演された「 Google Cloud でのデータサイエンス」のレポート記事となります。
今回は Google Cloud (GCP)の AI プラットフォームをご紹介しつつ、 MLOps の概要や MLOps の実現に寄与する Google Cloud (GCP)のソリューションを一挙に解説します。自社でデータサイエンスの導入を検討されている方は、ぜひ最後までご覧ください。
なお、本記事内で使用している画像に関しては、 Google Cloud ML サミット「 Google Cloud でのデータサイエンス」を出典元として参照しております。
それでは、早速内容を見ていきましょう。
目次
Google Cloud (GCP)のデータサイエンス開発プラットフォーム
Google の使命
Google は Google Cloud (GCP)における AIの力を活用して、ビジネス上の困難な課題を解決することを使命としています。企業が研究から開発まで可能な限り迅速に対応できるよう、 Google は安全かつカスタマイズ可能な様々なプラットフォームを提供しています。
Google Cloud (GCP)の AI プラットフォーム
Google Cloud AI プラットフォームの機能には以下の4つの特徴があります。
- 多様な ML フレームワーク
- MLOps
- ディープラーニングを加速させる GPU と TPU
- スケールアップ
これらの特徴により、企業は安全かつ柔軟な AI / ML プラットフォームをビジネスシーンで自由に利用可能になります。
また、 Google Cloud (GCP)を活用することで、マネージドな MLOps ソリューションによる素早いデプロイが可能になり、データサイエンティストは、セルフサービスツールを使用してインスタンスを手間なく管理することができます。さらに、使用した分だけ利用料を支払う料金体系になっているため、組織としてコストの最適化を図ることができ、最新バージョンが常に利用可能な点も嬉しいポイントです。
このように、 Google Cloud (GCP)のデータサイエンス開発プラットフォームを利用すれば、企業は様々なメリットを享受できます。下図に記載のある通り、柔軟性や自動化、セキュリティとガバナンス、迅速性などのメリットが挙げられます。
MLOps
MLOps の現状
MLOps とは、 ML 開発チームと運用チームがお互いに協調し、機械学習モデルの実装から運用までのサイクルを円滑に進めるための管理体制を構築することです。
一般的に、 MLOps は容易にローンチできる反面、運用は難しいとされており、とある調査によると ML プロジェクトの87%以上が PoC で終わっており本番運用化されていない、との報告がなされています。
モデル作成のためのコーディングは ML システムにおいてほんの一部にしか過ぎませんが、多くのエンジニアはモデル作成を必要以上に重要視する傾向にあります。これは、従来できなかったことが ML で可能になるためです。
そして、同様のことが ML アプリケーションの開発者にも当てはまり、「予測精度の高いモデルが完成しているのですぐに本番でも利用しよう」と考えます。しかし、ビジネスアプリケーションの開発では、包括的なテストをせずにアプリケーションを本番環境に移行することはありません。
また、ソース管理の計画をせずにコーディングを開始することもありませんし、 CI / CD (開発におけるビルドやテスト・デリバリーなどを自動化して継続的に行うアプローチ)なしでアプリケーションを自動的にリリースすることも決してありません。
また、 ML モデルは学習データに推論の品質が依存しますが、現実世界のデータは絶えず変化し、 ML を実施する環境はさらに複雑なものとなっています。テスト的に作成したモデルは、変化する世界の瞬間のスナップショットのデータを収集してトレーニングされたものであり、その環境は常に変化します。
データが変化すればモデルは古くなり、当然ながら予測精度も落ちてしまいます。そのため、新しいデータを収集してモデルを再構築し、パフォーマンスを監視しながら運用システム全体で品質を常に管理するための仕組みが必要になります。
ML プロジェクトが難しくなる理由
本番環境における ML プロジェクトが難しくなる理由として、以下のように様々な要素が考えられます。トレーニングおよびサービスのスケールアウトやインフラストラクチャの問題、アクセス制御の問題など、考慮すべき要素は多岐にわたります。
Vertex AI
Vertex AI とは?
Vertex AI は、 Google の ML の実践投入から生まれたノウハウをそのまま利用できる ML の統合プラットフォームです。自動でモデルを作成する AutoML やコードを書くカスタムトレーニングなどに加えて、データセット登録や予測リクエストなど、 ML の実運用で必要なフルサイクルをサポートします。
Vertex AI は2021年5月に一般提供が開始され、以降多くの機能改善がなされてきました。例えば、 API のリクエスト数や機械学習のトレーニングジョブ総量、機械学習プレディクションなどが改善されています。
Vertex AI の機能
Vertex AI では、画像やビデオ、会話、自然言語、翻訳、構造化データなど、様々な種類のアプリケーション向けのビルディングブロックを提供しています。そして、カスタムモデルの開発をさらに深め、モデル運用を大規模に管理したいユーザー向けには、データサイエンスや MLOps のコアサービスを用意しています。
ここからは、その一部である AutoML と Vertex Pipelines 、 Vertex AI Workbench の3つについて詳しくご説明します。
AutoML とは?
Vertex AI の AutoML を使うことで、最先端のモデルを短時間でトレーニングすることができます。 AutoML はコードを記述せずに利用できるため、難しい専門知識は必要ありません。
また、 Explainable AI により、詳細なモデルの評価指標と特徴量属性を取得可能になります。画像、動画、自然言語、構造化データなど、様々なデータに対応しています。
Vertex Pipelines とは?
Vertex AI の Vertex Pipelines を使うことで、機械学習の生成工程の自動化・管理を実現できます。特徴としては、サーバーレス、自動化、スケーラブルといった点が挙げられます。
Vertex Pipelines は、データの取り込みや前処理、トレーニング、検証、デプロイのためにコンポーネントを使用し、パイプラインを定義します。また、より高度なガバナンスと監査のためのメタデータストアを使用して、 ML ワークフロー全体のデータ、機能、モデル、および実験のメトリックのアーティファクトと系統を追跡可能です。
AutoML について以下の記事でさらに詳しく解説しておりますので、合わせてご覧ください。
簡単にオリジナルAIを始められる!Google Cloudの機械学習/AIサービス「Cloud AutoML」を一挙紹介
Vertex AI Workbench
Vertex AI の Workbench は比較的新しい機能であり、最近プレビュー版としてリリースされました。これは、データ分析やマシンラーニングにおけるワークフローの単一ノートブックインターフェースであり、 BigQuery や Spark 、 Cloud Storage 、 Vertex AI などと統合することで、データ探索から実験、トレーニングまで、すべての範囲をカバーしています。
また、データクラウドエコシステムとして、様々なソリューションと連携可能です。対応しているソリューションの一例を下図に示します。
BigQuery ML
BigQuery とは?
BigQuery とは、 Google Cloud (GCP)で提供されているビッグデータ解析サービスのことです。通常では長い時間かかるクエリを、数TB(テラバイト)、数 PB(ペタバイト)のデータに対し数秒もしくは数十秒で終わらせることができます。
クラウドなため、サーバーレスでスケーラビリティがあり、非常にコストパフォーマンスに優れています。他の多彩な Google Cloud (GCP)の提供するサービスともシームレスに連携もでき、扱いやすいサービスの一つです。
以下のように、 2TB のデータから正規表現における検索処理を行う際、 BigQuery であればわずか20秒ほどで完了します。超高速処理が BigQuery の最大の特徴であり、ビジネスを加速する上で大きな強みになると言えます。
BigQuery に関心のある方は以下の記事がオススメです。
超高速でデータ分析できる!専門知識なしで扱えるGoogle BigQueryがとにかくスゴイ!
BigQuery ML とは?
前項でご説明した BigQuery に ML 機能が備わったものが BigQuery ML です。 BigQuery ML は SQL を利用した ML モデルのトレインとデプロイし、 BigQuery からデータを移行することなく ML ワークフローを実行できます。これにより、通常の ML タスクを自動化できることに加えて、インフラやマネジメント、セキュリティ、コンプライアンスなどの機能が標準で備わっている点も嬉しいポイントです。
なお、 BigQuery ML は様々なアルゴリズムをサポートしています。以下、 BigQuery ML がサポートする ML アルゴリズムの一覧です。
また、 BigQuery ML で作成したモデルは Cloud Storage にエクスポートすることが可能であり、それを Vertex AI 側でインポートすれば Vertex Pipelines に読み込むことができます。このように、 BigQuery ML は Vertex AI とスムーズに連携でき、 MLOps の実現に大きく寄与するソリューションとなっています。
BigQuery ML を活用したモデル作成方法は、以下の記事で詳しくご紹介しています。
こんなに簡単にできるの? Google Cloud (GCP)を活用した時系列分析のやり方を徹底解説!
こんなに簡単にできるの? BigQuery ML で教師ラベルなしで異常検出する3つの方法とは?
Vertex AI に関する Q&A
Q.Workbench はインスタンスを管理しなくても使った分だけ料金を支払えば良いですか?
A.Workbench では「インスタンスを立ち上げてから何時間後にストップするか」という設定ができるため、事前設定でおおよその料金をコントロールすることが可能です。
Q.Workbench ではマネージドなノートブックと旧来のノートブックをどのように使い分ければ良いですか?
A.Workbench は旧来のノートブックの利便性を高めたものなので、基本的にはマネージドなノートブックの利用をオススメします。ただ、旧来のノートブックはインスタンスをセットするときに細かい設定ができるため、自身でインフラをチューニングしたい場合は、旧来のノートブックを使うのが良いと思います。
Workbench はリージョン選択可能ですか?
A.2021年11月現在、 Workbench でのリージョン選択はできません。
Q.PoC は成功したが MLOps が進まなかった実例をご存知ですか?
A.はい、たくさん経験があります。前述した通り、失敗しないためには MLOps プロジェクトを俯瞰し、広い目線で全体設計を行うことが大切です。
Q.Auto ML で画像を扱う場合、事前にデータを水増しすることで精度向上に効果(または逆効果)はありますか?
A.データの水増しは ML プロジェクトで一般的に用いられる手法であり、一定の効果を期待できます。ただし、 ML は学習データに品質が依存するため、データの偏りなどが顕著な場合は逆効果になる可能性もあるので、この点は注意が必要です。
Q.Vertex Pipelines を習得するための良いサンプルコードはありますか?
A.Google の公式ドキュメントが参考になります。
Q.経営層に対して MLOps の重要性を訴えるためのポイントはありますか?
A.MLOps を導入することで、 PoC から本番移行までのリードタイムを短縮できる点を訴えるのが良いと思います。投資した資源がすぐに結果として返ってくるため、迅速な意思決定に繋がり、競合優位性にも直結します。また、実際に MLOps を成功させた他社の事例を集めるのも効果的だと言えます。
まとめ
本記事では、 Google Cloud (GCP)の AI プラットフォームをご紹介しつつ、 MLOps の概要や MLOps の実現に寄与する Google Cloud (GCP)のソリューションを一挙に解説しました。内容をご理解いただけましたでしょうか。
Google Cloud (GCP)の AI プラットフォームには、多様な ML フレームワークや MLOps などの様々な特徴が存在し、これらを活用することで、企業は安全かつ柔軟な AI / ML プラットフォームをビジネスシーンで自由に利用可能になります。
MLOps を実現するためには多くの要素を考慮する必要がありますが、ここで Vertex AI や BigQuery ML が有効なソリューションになります。 Vertex AI に搭載されている AutoML や Vertex Pipelines を活用することで、自社の ML プロジェクトにおける業務効率化や生産性向上を実現できます。
また、この Vertex AI と BigQuery ML を連携すれば、 BigQuery から Vertex Pipelines までの導線をスムーズに繋ぎ合わせることができ、 MLOps を強く加速させることが可能です。
そして、これらのソリューションを利用するためには Google Cloud (GCP)を契約する必要がありますが、 Google Cloud (GCP)を導入するのであればトップゲートがオススメです。
弊社トップゲートでは、Google Cloud (GCP) 利用料3%OFFや支払代行手数料無料、請求書払い可能などGoogle Cloud (GCP)をお得に便利に利用できます。さらに専門的な知見を活かし、
- Google Cloud (GCP)支払い代行
- システム構築からアプリケーション開発
- Google Cloud (GCP)運用サポート
- Google Cloud (GCP)に関する技術サポート、コンサルティング
など幅広くあなたのビジネスを加速させるためにサポートをワンストップで対応することが可能です。
Google Workspace(旧G Suite)に関しても、実績に裏付けられた技術力やさまざまな導入支援実績があります。あなたの状況に最適な利用方法の提案から運用のサポートまでのあなたに寄り添ったサポートを実現します!
Google Cloud (GCP)、またはGoogle Workspace(旧G Suite)の導入をご検討をされている方はお気軽にお問い合わせください。
メール登録者数3万件!TOPGATE MAGAZINE大好評配信中!
Google Cloud(GCP)、Google Workspace(旧G Suite) 、TOPGATEの最新情報が満載!