データ統合は何十年も前から何らかの形で行われてきました。企業は常に、データを組み合わせて一元的に収集する方法を模索しているからです。
データ統合の中で最も一般的に使用され、主流となっているのがETL(extract, transform, load)です。 ETLは、まず1つまたは複数のソースシステムからデータを抽出し、必要に応じて変換した後、ターゲットとなるウェアハウスやデータレイクにロードします。また、近年では、多くの企業がELT(extract, load, transform)パイプラインを採用しています。
しかし、ここにきて新たなパラダイムが登場しました。 それがリバースETLです。しかし、リバースETLとは一体何なのか、その使用例やメリットは何なのか。リバースETLについての疑問にお答えします。
リバースETLとは?
標準的なETLは、企業のデータマネジメントに不可欠なものです。ETLは、ファイルやSQLデータベースなどのデータソースから情報を抽出し(必要に応じて関連するメタデータも一緒に)、Amazon Redshift、Snowflake、Google BigQueryなどのデータウェアハウスにロードします。
リバースETLとは、その名の通り、従来のETLプロセスにおけるオペレーションの順番を逆転させるものです。Redpoint Venturesの投資家であるAstasia Myersは、記事「Reverse ETL-A Primer」の中で、リバースETLを「データウェアハウスからサードパーティシステムにデータを移動させ、データをオペレーションナルにするプロセス」と定義しています。
つまり、リバースETLは、従来のETLターゲットであったデータウェアハウスやデータレイクをソースとして扱い、従来のETLソースだったERPやCRMのようなアプリケーションをターゲットとして扱います。まず、データウェアハウスやデータレイクからデータを抽出し、必要に応じて変換した後、サードパーティのSaaSアプリケーションやプラットフォームにロードします。
リバースETLが登場するまで企業はどう対処していたのか?
リバースETLは古くから存在していましたが、データ管理コミュニティがETLプロセスとしてその概念を明確に定義したのは最近のことです。リバースETLソリューションが登場する前は、チームはデータウェアハウス技術と業務システム(Salesforce、HubSpot、Marketoなど)の間に独自のAPIコネクタを作成し、ビジネスユーザーがこれらのサードパーティアプリケーション内でデータセットに直接アクセスできるようにする必要がありました。
しかし、APIコネクターを自前で構築するにはいくつかのデメリットがあります。
- APIコネクターを一から自前で作成すると、技術力のある社内チームでも、数日から1週間以上かかることがあります。
- コネクタの作成は、リアルタイムのデータ転送に対応できない「もろい」APIエンドポイントにより、困難を極めます。
- チームは、どちらかの側で基盤となる技術が変更された場合に備えて、これらのコネクタを長期にわたって維持する必要があります。
このような問題から、代わりとなるETLソリューションへの関心が高まっています。リバースETLソリューションでは、データスタックのコンポーネント間をすぐに接続することができ、APIコネクタを手動で構築する手間を省くことができます。
リバースETLのフローは?
従来のETLとは異なり、リバースETLパイプラインは、分析目的のワークロードが実行される場所ではありません。その代わりに、データウェアハウスやデータレイクは、データスタックの他の部分にデータを運搬するための一元化された「信頼できる唯一の情報源」として機能します。リバースETLでは、ソースデータウェアハウスやデータレイクから抽出した情報を、ターゲットとなる場所のデータモデルに合わせて変換します。 リバースETLは、データレイクに保存されている非構造化データを扱うこともでき、与えられたターゲットスキーマに合わせて変換します。
リバースETLはデータチームにどのようなメリットをもたらすか?
リバースETLがあなたやあなたのデータチームにもたらすメリットはいくつかあります。
顧客関係管理(CRM)ソフトウェア:データウェアハウスにある顧客データをリバースETLを使って、SalesforceなどのCRMシステムに転送することができます。これにより、注力すべき個々の顧客や顧客セグメントを迅速かつ容易に特定することができます。例えば、顧客を生涯価値別に分類して、最もお金を使う顧客を見つけることができます。
ビジネス・インテリジェンス(BI)とアナリティクス: リバースETLは、データウェアハウス内のデータを、Tableau、Qlik、Microsoft Power BIなどのBIおよび分析プラットフォームに移動させることもできます。 リバースETLは、リアルタイムのデータを最も必要とされる適切な場所に自動的に配信し、業務分析に役立てることができます。
データガバナンス: 手動でAPIコネクタを構築するのではなく、エンタープライズグレードのリバースETLソリューションを採用することで、データガバナンスを向上させることができます。単一の統一されたリバースETLプラットフォームは、個別にメンテナンスが必要な複数のAPIコネクタよりも、管理と監視がはるかに容易です。リバースETLは、データチームの時間を大幅に節約することで、他の業務に時間を割くことが可能です。
まとめ
リバースETLの概念は何十年も前から注目されていましたが、ほとんどの企業では、独自のAPIコネクタを手動で作成する以外に、独自のパイプラインを構築する選択肢はほとんどありませんでした。成熟した本格的なリバースETLソリューションが採用されるようになったのは、ごく最近のことです。CRMからビジネス・インテリジェンス、デジタル・マーケティングに至るまで、リバースETLは、すべてのエンタープライズ・ソフトウェアやシステムにおいて、信頼性の高い一貫した顧客情報を維持するのに役立ちます。
Integrate.ioのようなリバースETLシナリオにも対応したETLツールは、データパイプラインを構築するためのシンプルでユーザーフレンドリーな直観的インターフェイスを提供します。Integrate.ioは、データストアとSaaSアプリケーションの間に100以上の事前に構築されたコネクタを提供しており、必要な場所にデータを簡単に運ぶことができます。
新しいETLソリューションをお探しの方は、ぜひIntegrate.ioをお試しください。 お客様のビジネスニーズや目的についてのご相談や、Integrate.ioプラットフォームの14日間の無償トライアルをご希望の方は、オンラインデモに登録し、Integrate.ioが自社のユースケースにフィットするかどうかご確認ください。