ETL (extract, transform, load) は、現代のビジネスインテリジェンスとアナリティクスの動力源です。ETLプロセスは、ファイル、データベース、APIを含む幅広いソースからのデータを効率的に統合します。そして、そのデータを必要に応じて変換してから、ターゲットのデータウェアハウスにロードします。

1970年代に登場して以来、ETLはほとんどがオンプレミスで行われてきました。しかし、クラウドコンピューティングの台頭により、このパラダイムは大きく変化しました。IT調査会社Forresterの2018年の調査によると、大企業の51%が複雑なデータ分析をクラウドで実行しているとされています。さらにForresterは、2021年までにこの数字は61%に上昇すると予測していますが、一方でオンプレミスで分析を行っている企業は44%にとどまるとされています

このようなクラウドへのシフトを前提に考えた場合、多くの企業が新しいIT環境を補完するためにクラウドネイティブETLソリューションを探しているのは当然のことです。しかし、クラウドネイティブETLとは具体的にどのようなもので、クラウドネイティブETLソリューションにはどのようなメリットがあるのでしょうか?

Table of Contents

  1. クラウドネイティブETLとは?
  2. オンプレミスからクラウドETLへ
  3. クラウドETLアーキテクチャ
  4. クラウドETLを選択する理由とは?

クラウドネイティブETLとは?

「クラウドネイティブETL」とは、オンプレミスのインフラストラクチャとは対照的に、クラウドコンピューティングを活用するのに特別に設計されたETLツールとプロセスを指します。クラウドのメリットは以下の通りです。

  • スケーラブル: クラウドコンピューティングは、オンプレミスよりも大幅に拡張性が高いです。クラウドでストレージやコンピューティング能力の限界に達した場合、別のサーバーやCPUを簡単にプロビジョニングすることができます。しかし、オンプレミス型のコンピューティングでは、ハードウェアを自分で購入する必要があり、コストも時間もかかります。
  • モバイルフレンドリー:クラウドサービスは通常、スマートフォン、タブレット、ラップトップなどのデバイスと互換性があるため、ユーザーはいつでもどこからでもアクセスすることができます。オンプレミスのETLは、モバイルフレンドリーに再構成することができますが、通常、こうした機能はあらかじめ備わっていません。
  • フルマネージド:パブリッククラウドプロバイダーは、エンドユーザーの利便性のために完全に管理されたソリューションを提供しています。オンプレミスのETLソリューションを使用すると、多くの場合、熟練した社内の技術スタッフを雇う必要があり、それに関する問題について自分で処理しなければならないことを意味します。

クラウドネイティブETLツールは、これらの利点(およびそれ以上)を念頭に置いて作成されています。ETLプロセスのほとんどはオンプレミスと同じですが、その裏ではETLワークロードは近くのITクローゼットではなく、リモートサーバー上で実行されています。

オンプレミスからクラウドETLへ

前述したように、クラウドネイティブのETLソリューションが人気を集めています。では、なぜ、どのようにして、企業はETLをオンプレミスからクラウドに移行するのでしょうか?クラウドネイティブETLソリューションを検討する際に考慮すべき要素は以下の通りです。

  • スピード:スピードがあなたにとっての主要な関心事である場合は、オンプレミスのETLソリューションを使用した方が良いかもしれません。クラウド上のETLは非常に高速になりますが、特にクラウドサーバーが異なる地域にある場合は、レイテンシーの問題に悩まされる場合があります。一方で、ビジネスがすでに複数の地域に分散して行われている場合は、ある程度のレイテンシは予想され、許容できるかもしれません。
  • サイバーセキュリティ:クラウドとオンプレミスの両方のETLソリューションを安全にすることができます。ここでの勝者は、何を求めているかによって異なります。 最高情報セキュリティ責任者(CISO)の61%が、クラウドはオンプレミスのソリューションと同等かそれよりも安全だと考えています。ただし、法律や規制により第三者が扱えないデータ(医療データ、金融データ、ペイメントカード情報など)がある場合は、オンプレミスのETLが必要になるかもしれません。
  • 信頼性の高さ:クラウドサービスがダウンしても、それを直すのは自分の責任ではありません。この点は、IT サポート担当者にとっては最大のセールスポイントかもしれません。クラウドベンダーはSLA(サービスレベルアグリーメント)を提供しており、どの程度のアップタイムを期待できるかを説明しているはずです。例えば、AWS GlueのクラウドネイティブETLソリューションでは、毎月99.9%の稼働率を保証しています。

あなたがクラウドネイティブのETLツールを使用している場合でも、それはあなたのETLワークフロー全体がクラウドに移行しなければならないことを意味するわけではありません。多くの企業では、データやプロセスの一部をオンプレミスのままにしておく「ハイブリッド」ETLモデルを採用しています。

クラウドETLアーキテクチャ

従来のオンプレミスETLツールは依然として活躍の場を保っていますが、より多くの企業では、現代のデータドリブン型のニーズにはあまりにも遅く、柔軟性に欠け、コストがかかると見ています。このように競争が激しく、常に進化し続けるビジネス環境の中で、クラウドネイティブのETLツールが有力な選択肢として浮上してきました。

とはいえ、クラウドネイティブETLツールは実際にはどのようなものなのでしょうか?答えは、使用するETLツールによってそれぞれ異なります。クラウドネイティブETLソリューションの中には、オンプレミスのものと実質的に区別がつかない製品もあれば、クラウド環境を利用して実行するものもあります。

Apache Hadoopは、あらゆるクラウドネイティブETLアーキテクチャに適したビッグデータ処理フレームワークの一例です。様々な場所にある複数のクラスタにデータを分散して処理することで、Hadoopは並列性と冗長性を活用することができます。Hadoopは、大規模なデータセットを独立したチャンクに分割し、そのチャンクに対して演算を実行するプログラミングモデルであるMapReduceを搭載しています。

HadoopをETLアーキテクチャの一部として組み込むために、Integrate.ioのようなクラウドネイティブETLツールは、任意のHadoop分散ファイルシステム(HDFS)上のデータにアクセスすることができます。Hadoopは、オンプレミスのETLではマネのできないクラウドネイティブETLツールの優れた部分の一つです。

さらに、クラウドネイティブETLソリューションでは、ETLアーキテクチャの選択肢が広がり、柔軟性が高まります。

  • クラウドネイティブETLを使用すると、ETLパイプラインのターゲットとしてオンプレミスとクラウドの両方のデータウェアハウスを使用することができます。これには、Amazon RedshiftGoogle BigQuerySnowflakeなどの主要なクラウドデータウェアハウスソリューションが含まれます。
  • 最新のインサイトを本当に必要とする企業では、リアルタイムでストリーミングデータを処理するには、クラウドネイティブETLの方が適しています。
  • また、オンプレミスからクラウドへの移行により、ETLからELT(extract, load, transform)などの他のデータ統合ソリューションへのシフトが始まっています。ELTパイプラインでは、変換を実行する前に、まずデータをターゲットのリポジトリにロードします。ELTは、クラウドコンピューティングのスケーラビリティと柔軟性のおかげで、クラウドに適しています。特に、ELTはETLとは異なり、クラウドのデータウェアハウスまたはデータレイクをデスティネーションとして使用することができます。データレイクは、構造化されたデータと構造化されていないデータの両方をそのままの形式で格納できる情報ストアです(構造化されたデータのみを格納するデータウェアハウスとは対照的です)。

クラウドETLを選択する理由とは?

Integrate.ioは、エンタープライズグレードのクラウドネイティブで業界をリードするデータ統合プラットフォームです。Integrate.ioは、100以上の統合機能とシンプルで視覚的なドラッグアンドドロップのインターフェースを備えており、技術者でないユーザーでもターゲットデータウェアハウスへの強力で堅牢なパイプラインを簡単に構築することができます。

クラウドネイティブのETL(およびELT)ソリューションとして、Integrate.ioには以下のようなメリットがあります。

  • 柔軟性とスケーラビリティ: Integrate.ioプラットフォームは、デプロイ、ロギングとモニタリング、ジョブスケジューリング、データセキュリティ、メンテナンスなど、複雑な技術的な問題をすべてユーザーが意識することなくプラットフォームが処理してくれます。これにより、本当に重要なこと、すなわち強力なクラウドネイティブETLツールが可能にするBIとAnalyticsのインサイトにあなたは集中することができます。
  • 豊富な機能群: Integrate.ioはETLの初心者からベテランのプロまで、誰にでも使えるツールであり、それを証明する機能群を持っています。例えば、Integrate.ioのワークフローエンジンは、ユーザーが最も都合の良いタイミングでデータパイプラインの実行をオーケストレーションしてスケジュールすることができるので、重要な意思決定者は常に最新のインサイトを享受することができます。また、Integrate.ioには、複雑なデータ準備タスクを実装するための上級ユーザー向けの独自の関数式が備わっています。 
  • サポート:クラウドネイティブのETLソリューションを使用したとしても、データ統合が困難な場合があります:パフォーマンス、コネクタと統合、異なるファイルフォーマットなどの問題に対処しなければなりません。Integrate.ioは、電子メール、電話、チャット、オンラインミーティングのサポートを提供していますので、いつでも必要な支援と回答を得ることができます。

Integrate.ioのクラウドネイティブETLツールがどのようにデータ統合のワークフローを強化できるかについてご興味がある場合、今すぐオンラインデモにお申し込みください。