データ駆動型ビジネスを実現し、効果的なデータ管理を行うには、企業は企業情報を効果的に収集、処理、分析できる高性能なデータパイプラインの構築が必須です。

データの処理と統合を行う場合、企業にはデータフローの構築方法について選択肢がいくつかありますが、多くの企業は、ゼロからカスタムデータワークフローを作成するよりも、ITエコシステム内のさまざまなデータセットをシームレスに接続する ELT データプラットフォームの利用を選びます。

以下は、最先端の ELTツール について押さえておくべき5点です:

  1. ELT は、データを変換する前にターゲットレポジトリに格納する従来の ETL データ統合モデルの代替となるものである。
  2. ETL に対する ELT の利点は、格納の高速化、効率化、柔軟性などがある。
  3. ELT のユースケースには、極めて巨大なデータセット、クラウドベースのアーキテクチャ、大量の非構造化データなどがある。
  4. 膨大な量のデータを持つ組織では、そのデータの効果的な管理およびアクセスする方法が必要であり、ELT は、その最も速くて簡単な方法の1つである。
  5. 最適な ELT ツールを選ぶ際には、コスト、使いやすさ、機能セット、ユーザーレビューなどのポイントを考慮すべきである。

では、データチームが使えるさまざまな ELT ツールとはどのようなものであり、その中で自分に合ったものをどのように選べばいいのでしょうか。そこで本記事では、主要な ELT ツールを機能、価格、レビューなどの基準で比較検討していきます。

目次

    1. Integrate.io
    2. Talend
    3. Stitch
    4. Fivetran
    5. Matillion

ELT とは

ELT(抽出、格納、変換)は、データレイクの実装で使われるデータ統合のやり方で、従来の ETL ステップを1つのプロセスに統合するものです。

以下は、ETL パイプラインのステップです:

  1. 抽出:まず、単独または複数のデータソースから情報を抽出する。そのソースには、内部の JSON または XMLファイル、メタデータ、Salesforce のような SaaS および CRM プラットフォームや外部の Web サイト、(MySQL、SQL Server、Apache Cassandra、PostgreSQL などの)リレーショナルまたは非リレーショナルデータベースなどがある。
  2. 変換:次に、その情報はさまざまなデータ変換を経て、BI(ビジネスインテリジェンス)やデータ分析に対応できる準備ができる。このような変換は、データ品質の向上や、さまざまなデータタイプをターゲットレポジトリのスキーマに合うように標準化することを目的としている。
  3. 格納:最後に、データは一元化されたレポジトリ(通常は SnowflakeAmazon RedshiftGoogle BigQueryなどのデータウェアハウスソリューション)にETL ツールで格納される。ここでアナリストは、ビッグデータに対してリアルタイムでクエリを実行し、ダッシュボードやビジュアライゼーションを表示することで、隠れたトレンドやパターンを発見し、企業データのより包括的で完全なビューを実現する。

これに対し、ELT(抽出、格納、変換)では、データ統合プラットフォームがデータを格納(Load)してから変換(Transform)する順序が変わり、情報はまずターゲットに格納(L)されてからその場で変換(T)されます。この ELT プロセスにより、格納の時間が短縮され、企業は既存のデータインフラを分析、ML(機械学習)、BI(ビジネスインテリジェンス)に迅速に活用することができます。

そして、近年は従来の ETL プロセスに代わる ELT ツールの人気が高まっています。

ELT ツール: ユースケースとメリット

ELT で[格納]と[変換]のステージをどのように行うかの違いは、些細な変更に見えるかもしれませんが、この変更は、実は ETL(抽出、変換、格納) と ELT (抽出、格納、変換)のユースケースやメリットに大きな影響を与えます。

ETL ソリューションと比較した場合の ELT の利点は以下の通りです:

  • 格納速度の高速化:ELTでは、まずデータを格納し、その後、ターゲットレポジトリ内でアドホックに変換するだけであり、ELT のプロセスは ETL よりも通常は早く完了するということになる。
  • 必要なデータだけを変換:ETL パイプラインは、その情報が実際に分析やレポーティングに使われるかどうかに関わらず、データ統合プロセスで消費される情報を全て変換するが、ELT プロセスは、まずデータをターゲットレポジトリに格納し、必要に応じてデータを変換して、クエリやデータ処理を最適化する。
  • より高い柔軟性:ELTは、従来のデータウェアハウスと、絞り込まれていない非構造化情報を保持するために設計されたレポジトリである「データレイク」の両方に対応でき、変換の段階で、ユーザーはターゲットレポジトリの特定のデータスキーマを考慮する必要がない。

また、ELT の代表的なユースケースとして、以下のようなものがあります:

  • 膨大な量のデータ:極めて大量の情報に対するデータインジェストを得意としている。ELT だと、ユーザーは保存する前のデータ変換が必要ないため、ELT プロセスは、リアルタイムデータのストリーミングなどのユースケースにより適していると言える。
  • 非構造化データ:標準的なリレーショナルデータベースのスキーマにうまく当てはまらない情報である、テキスト、オーディオ、画像、ビデオなどの「非構造化データ」に適している。
  • クラウドベースのアーキテクチャ:ETLは、オンプレミスのデータ統合ワークフローと相性がよく、入力データを変換してサイズを小さくしてから保存する。対する ELTは、AWS や Microsoft Azure などのクラウドプラットフォームにおいて、ストレージの能力があまり気にならない、拡張性の高いクラウドデータウェアハウスと好相性である。

ELTツール5選

thumbnail image

1.Integrate.io

Integrate.ioは、ELT と ETL の両方のアーキテクチャに対応する、パワフルで使いやすいデータ移行・統合ツールです。

  • 特徴 - Integrate.io の特徴および機能:
    • ソフトウェアアプリケーションやデータベースなどのデータソースに対応した140以上の内蔵コネクタと API 
    • データ変換のための220以上のオプションが付いた、ドラッグ&ドロップ、ローコードのビジュアルインターフェース
    • 前回のデータ統合ジョブ以降に変更されたレコードを自動的に検出して抽出するCDC(変更データキャプチャ)
    • 集中管理されたデータウェアハウスからサードパーティーのソフトウェアツールに情報をプッシュするための、技術的な知識がないビジネスユーザーでも分析可能なリバースETL

thumbnail image

  • 価格設定:Integrate.ioは、使用するコネクタの数に応じて課金されるため、将来的に多くのデータを消費する予定の成長企業には最適。3つの階層があり、年間15,000ドルから用意されている。
  • レビュー:G2 において、189件のレビューに基づいて5つ星中4.3 の平均評価を得ており、Integrate.io のユーザーであるジャガディッシュ・B. 氏は、このプラットフォームは、「市場で入手可能なクラウドベースのデータ ETL オプションの中で最も優れたものの1つです...。内蔵されている ETL コンポーネントは、プログラミングや技術的な知識がなくても使用できるように設計されており、担当のアカウント管理者は、組織のニーズに寄り添っていてとても協力的です。」と述べている。

thumbnail image

2.Talend Open Studio

Talend Open Studioは、ELT ワークフローにも対応するオープンソースの ETL ツールです。

  • 特徴 - Talend Open Studio の特徴および機能:
    • Oracle、Teradata、SQL Serverのデータベースや、Marketo、Salesforce、NetSuiteなどのSaaSアプリなどの、限られた数のコネクタ
    • 基本的なデータパイプラインの構築や、シンプルな ETL やデータ統合ジョブの実行に対応

thumbnail image

  • 価格設定:オープンソースの Apache ソフトウェアライセンスを採用しているため、Talend Open Studio は 誰でも無料で利用可能。
  • レビュー:Gartner のウェブサイトでは、49件のレビューに基づき、5つ星中4.2という平均評価を受けており、あるレビュアーは、「Talend Open Studioを統合プロジェクトに使用すると、非常に簡単に立ち上げることができ、ある程度直感的に操作できます...サポートチームに関しては、対応してもらう問題によって当たり外れがあることがわかりました。」と述べている。

thumbnail image

3.Stitch

Stitch は、2018年に Talend に買収された ETL および ELT ツールです。

  • 特徴 - Stitch の特徴および機能:
    • 選択したクラウドデータウェアハウスに情報を移動するための140以上のデータソースに対応したコネクタ
    • データパイプラインを完全に可視化するための管理およびオーケストレーション機能
    • HIPAA(医療保険の相互運用性と説明責任に関する法律)、GDPR(EU一般データ保護規則)、SOC 2(サービス組織のシステムおよび組織管理 2型)などの規制遵守を目的としたデータの暗号化およびマスキング

thumbnail image

  • 価格設定:Stitchは、1ヶ月に消費されるデータ行数に応じて、「スタンダード」、「アドバンス」、「プレミアム」の価格帯が用意されており、スタンダード層は月間のデータ量が500万行で、月額100ドルから。
    レビュー:G2 ウェブサイトでは、66件のレビューに基づき、5つ星中4.5の平均評価を得ており、あるレビュアーは、「これまでのところ、Stitch には何の問題もなく、重要なデータ・レプリケーションのワークフローにおいて、ますます Stitch に頼るようになりました…レプリケーションの需要が増えるにつれて、Stitch が手狭になることはすぐわかりますね。価格については、少量であれば問題ないと思いますが、行単位であるため、その点が問題になりやすいかもしれません。」と述べている

thumbnail image

4.Fivetran

Fivetran は、ETL と ELT の両方のプロセスに対応する、クラウドベースのデータ統合プラットフォームです。

  • 特徴 - Fivetran の特徴および機能:
    • 様々なソフトウェアアプリケーションやデータベースのための300以上のフルマネージドコネクタ
    • オープンソースの dbt Core ツールを使ったカスタムデータの変換
    • カスタムロール、SCIMユーザープロビジョニング、SSHトンネルによる暗号化など、データガバナンスとデータセキュリティのための高度な機能

thumbnail image

  • 価格設定:Fivetran は、顧客が使用する月間アクティブ行数に基づいて課金され、より高価な階層だと、より速いデータ同期、アップタイムの保証、顧客からの問い合わせに対する1時間の応答などのメリットもある。
  • レビュー:G2ウェブサイトにおいて、350件のレビューに基づき、5つ星中4.2という平均評価を得ており、ユーザーの ミトゥン M. 氏は「使い始めるのもデータインジェストも非常に簡単です。インフラやコードの管理は必要ありません...価格モデルはあまりよくありません。月間のアクティブな行数に基づく価格設定は、わかりにくく、価格がどれくらいになるかの予測が難しいです。」と述べている。

thumbnail image

5.Matillion

Matillion は、ELT と ETL のワークフローに対応できるクラウドネイティブのデータ統合プラットフォームです。

  • 特徴 - Matillion の特徴および機能:
    • ソフトウェアアプリケーションやサービスからデータを抽出するための、すぐに使える80以上のコネクタ
    • Snowflake、Redshift、Azure Synapse、BigQuery など、多くのクラウドデータウェアハウスとの互換性
    • 読み取り、書き込み、結合、変換操作のためのコンポーネントを備えた、ドラッグ&ドロップでブラウザからアクセスできるモダンな UI(ユーザーインターフェース)

thumbnail image

  • 価格設定:Matillion はクレジットベースの価格モデルを採用しており、データ列のインジェストによってクレジットが消費される。また、さまざまなクレジットの階層があり、より高価な階層では高度な機能が提供される。
  • レビュー:ガートナーのウェブサイトでは、65件のレビューに基づき、5つ星中4.4という平均評価を受けており、レビュアーの一人は 「クラウドデータウェアハウスへの単純なデータ移動という、決められた目的に対してはうまく機能します…Git との統合は使い物にならないです…何かが実行されているときにCI/CDパイプラインを通して本番環境にコードをプッシュすることができませんからね。」と述べている。

ELT ツールの比較・分析

オススメ ELT プラットフォームをいくつかご紹介しましたが、その中からどのように選べばいいのでしょうか。以下に、ELTツールの比較分析を行う際に考慮すべき要素をいくつか挙げてみましょう:

  • コスト:ELT ツールはどのような価格モデルを採用しているのか、またその価格はどれくらいになるのか? カスタマーサポートを受けるには追加料金が必要か?
  • 使いやすさ:ELT ツールはユーザーに優しく、学習曲線は穏やかで導入しやすくなっているか? 技術者でないユーザーが独自のデータパイプラインを確定できるような、ノーコードまたはローコード機能が備わっているか? Java や Python など、特定のプログラミング言語の知識を必要とするか?
  • 機能パッケージ:ELTツールには、必要なデータソース用のコネクタや API が備わっているか? CDC やリバースETL など、特殊なユースケースのための高度な機能があるか?

Integrate.io が ELT でお手伝いできること

ELT は従来の ETL に代わる新しい選択肢ですが、それでも多くの利点とユースケースを提供しています。となると、「どの ELT ツールが特定の要件や状況に最適なのだろうか?」という疑問が湧いてます。

Integrate.io を利用する多くの企業にとって、複雑なデータエンジニアリングパイプラインの自動化が かつてないほどシンプルなものとなっています。また、Integrate.io のプラットフォームには、最もよく使われているデータベースや SaaS アプリケーション用の 140 以上のコネクタと API が内蔵されており、ノーコード、ドラッグ&ドロップのビジュアルユーザーインターフェースによって、ELT ワークロードの構築を簡単に始めることができます。

さらに、Integrate.ioは、数え切れないほどの企業にとって最高の ELT プラットフォームとなる便利な機能が満載です。例えば、Integrate.io には CDC 機能があり、前回のデータ統合作業以降に変更されたレコードを検出することで、貴重な時間と労力が節約されます。また、リバース ETL も提供されていることから、データウェアハウスからサードパーティーのシステムに情報を移動することができ、アクセスや分析がしやすくなります。

14日間の無料トライアルにサインアップして、Integrate.io がデータ統合ワークフローにどのようにお手伝いできるかをご覧になりませんか。
サインアップ後は、ELT のトライアル設定のデモをぜひご予約ください。当社のエキスパートが、トライアルを最大限に活用するための方法をご提案致します。