多くの企業において、膨大な量のデータを活用して、ビジネスの洞察力や意思決定力を高めています。しかし、企業がより多くのデータを管理し、オペレーショナルデータベースからデータウェアハウスへとますます多くの情報を移行するにつれ、データ侵害の脅威がますます大きくなっています。

このような脅威に対抗するために、ほとんどの企業は、GDPRSOC2HIPAACCPAなどのさまざまな規制や基準、さらには企業内のデータガバナンス規則に準拠したデータガバナンスおよびデータ管理ポリシーを導入しています。ほとんどの企業では、データガバナンスプロセスの重要な部分として、情報をデータウェアハウスに移す前にセンシティブなデータを暗号化したり削除したりすることが挙げられます。 

ここで、「ETLG」(Extract, Transform, Load for Data Governance)という概念が出てきます。Integrate.ioでは、ETLGという言葉を、データをデータウェアハウスにロードする前に、(データガバナンスのために)データに最低限必要なライトな変換を実行するプロセスを指すのに使用します。より複雑な変換が必要な場合は、ウェアハウス自体で実行するのを待つことができます。この点、ETLG戦略では、データガバナンスの要件を満たすと同時に、複雑な変換の設計やコーディングを事前に心配することなく、迅速にデータを取り込むことができます。 

この記事では、ETLGのコンセプトと、企業がデータガバナンスとコンプライアンスのルールを満たしながら、迅速なデータ取り込みによるスピードと柔軟性を実現する方法について見ていきます。とはいえ、まず本題に入る前に、データ統合におけるデータガバナンスとデータコンプライアンスについてご紹介します。 

目次

  1. データガバナンスとデータマネジメントの概要
  2. ETLGがデータガバナンスのニーズを満たし、迅速なデータ取り込みを実現する方法
  3. Integrate.ioによるETLG戦略の構築


データガバナンスとデータマネジメントの概要

データガバナンスとデータマネジメントは2つの独立した概念ですが、密接に関連しています。ここでは、それぞれについて説明していきます。

1)データガバナンス

データガバナンスとは、情報の安全で正しい使用と保存を確保するための組織の規則、方針、手順のことです。データガバナンスポリシーは、組織が従うべきデータ関連のルールや要件を成文化したものであり、組織内のデータセキュリティ基準を明確にするものでもあります。

データガバナンスポリシーは、セキュリティのルール、ポリシー、または手順を実行するものではありません。単にそれらを成文化したものです。したがって、データガバナンスポリシーは通常、以下の質問に答えます。

  • どの従業員が特定の情報にアクセスし、読むことができるか?
  • どの従業員が特定の情報にアクセスし、編集や変更を行うことができるか?
  • データを保存する際、組織はどのようなルールとプロセスを遵守するか?
  • 組織は、異なるタイプのデータをどのくらいの期間保存するか?
  • 保存されたデータの安全性を確保するために、どのような方針と方法がありますか?
  • 組織は、機密情報の保存に関連するリスクをどのように軽減しますか?

データガバナンスポリシーのルールでは、BI分析のためにデータウェアハウスに情報を渡す前に、センシティブデータ(PIIやPHIなど)をマスキング、暗号化、または削除することが求められる可能性があることに注意する必要があります。これは、GDPR、SOC2、HIPAA、CCPAなどの業界標準や政府規制が、これらのセキュリティ関連の、ロード前のデータ変換を要求する可能性があるからです。 

この種のデータ暗号化ポリシーはロードする前に変換を伴うため、ETL(Extract, Transform, Load)プロセスによって実装する必要があります。ETLプロセスは、センシティブな情報をソースから抽出した直後、そしてデスティネーションのデータウェアハウスにロードする前に、暗号化/リダクションを行うことができます。一方、ELTプロセスでは、このようなロード前の変換要件を満たすことはできません。なぜなら、ELTの変換はすべてデータウェアハウスにデータをロードした後に行われるからです。このため、データガバナンスポリシーがPII/PHI情報を保護するためにロード前の変換が求められる場合(これは極めて一般的なことです)、ELTワークフローが目的に合っていたとしても、企業はELTワークフローを導入できない可能性があります。  

 

2)データマネジメント

データ管理とは、データガバナンスのルール、ポリシー、および手順の実施と実行を指します。データマネジメントのプロセスには、以下のような作業が含まれます。

  • 特定の情報タイプにアクセス、読み取り、または編集できる人を強制する役割ベースのアクセス制御を設定する。 
  • すべてのデータベースとデータウェアハウスを設定し、データガバナンス計画で定められたデータ保存ルールを遵守する。
  • システムを構成し、継続的に管理することで、業界の規則、政府の規制、および組織の内部データセキュリティ基準に従うようにする。
  • 保存されているデータの安全性を監視し、安全性のリスクを特定して解決する。
  • マスターデータ監視システムを構築し、データマネジメントチームが組織内のすべてのデータの統計情報を確認できるようにする。
     

最終的にデータマネジメントは、データが作成された瞬間から破棄される瞬間まで、すべてのデータの取り扱いがデータガバナンスポリシーに準拠していることを確認するために、上記のタスクを監視・実行します。例えば、BIを目的として業務用データベースからデータウェアハウスにデータを移行する場合、ガバナンスポリシーに従ってデータ統合のワークフローを構成し、実装し、監視するのがデータマネジメントプロセスです。 

データ管理プロセスの中には、PHI/PIIデータをデータウェアハウスにロードする前に、(1)ETLプロセスのみ、または(2)ETLとELTを組み合わせて、軽量でロード前の変換を行い(ETL)、より複雑な変換は後にデータウェアハウスで行う(ELT)ことで、PHI/PIIデータの暗号化または仮名化を行うものがあります。 

ETLGがデータガバナンスのニーズを満たし、迅速なデータ取り込みを実現する方法

 

ETLG(Extract, Transform, Load for Data Governance)は、プリロードETL変換とポストロードELT変換の両方の利点を享受することができます。ETLGは、データ管理プロセスにおいて、データガバナンスポリシーのプリロードPII/PHI暗号化ルールを満たしつつ、データを迅速に取り込み、データ統合に対するELTアプローチの驚異的なデータ取り込み速度と柔軟なビジネスロジックの恩恵を受けられるようにします。 

基本的にETLGのワークフローは以下のようになります。

  • Extract:ソースからデータを取り出し、ステージングエリアにロードする。
  • Pre-Load Transformations for Security(セキュリティのためのロード前変換):PII/PHIやその他の機密情報を削除または暗号化するためにデータに軽い変換を行い、データガバナンス/管理を目的とした簡単なフォーマット機能を実行する。
  • Load:軽く変換された安全な情報を宛先にロードする。
  • Post-Load, more complex transformations:さらに変換が必要な場合は、データウェアハウスの処理能力を利用して、より複雑な変換を行う。

従来のETLワークフローでは、ロード前にすべての変換を行う必要があります。変換が多く複雑な場合、特定のケースではデータの取り込みが遅れる可能性があります。一方、ETLGプロセスでは、データ管理やデータコンプライアンスの要件を満たすためのライトなロード前変換を迅速に実行し、残りの変換を後回しにすることができます。これにより、新しいソースからのデータをデータウェアハウスに統合する際のスピードとアジリティが向上します。 

ETLGでは、処理負荷の高い変換を後回しにして、データウェアハウス内で実行することもできます。これにより、データ統合プロセスやビジネスロジックを必要に応じて柔軟に変更することができます。また、クラウドベースのデータウェアハウスシステムを使用してトランザクションを処理することで、圧倒的なパワーとスピードのメリットを受けることができます。 

Integrate.ioによるETLG戦略の構築

 

ETLGがELTのメリットを享受しつつ、データガバナンスとデータ管理の要件をサポートする方法を学んだところで、ETLGのワークフローを自分で構築してみたくなったのではないでしょうか。 ETLG戦略を構築する最も簡単で手頃な方法の1つは、ETL-as-ServiceプラットフォームであるIntegrate.ioをデータ統合スタックに追加することです。 

Integrate.ioは、データエンジニアリングのスキルレベルに関係なく、誰でもコードを書くことなく洗練されたETLプロセスを迅速に構築することが可能なパワフルで使いやすいプラットフォームです。必要不可欠なデータマネジメントツールとして、Integrate.ioは、あるシステムから別のシステムにデータを移動させる前に、センシティブなデータ(PHI、PIIなど)をマスクしたり、暗号化したり、削除したりする、いくつかの軽量で高速な変換を実行することができます。したがってIntegrate.ioは、ロード前変換をライトで高速、かつ誰でも簡単に設定できるようにしながら、お客様のデータガバナンスポリシーの要件を守ることができます。また、必要に応じて、データウェアハウス内で追加の変換を行うこともできます。 

Integrate.ioを実際に試してみたい方は、デモまたは14日間のトライアルの方法について、まずはオンラインデモにお申し込みください。