あなたは、ビジネスアナリストもしくはDBAとして、社内のデータを隅々まで熟知しているとします。顧客の注文データが保存され、問題が追跡され、ウェブサイトの訪問者の閲覧行動がログとして保存されています。しかし、データの範囲を拡大しなければならない場合、ウェアハウスの制約が厳しすぎることがあります。スキーマの制約や処理能力とストレージの密接な結びつきは、フラストレーションの要因となることがあります。一方データレイクだとかけ離れすぎています。データレイクはデータサイエンティストとその予測モデルが自由に活躍できる場所を提供してくれますが、意思決定者は有用なデータを諦めなければなりません。2つのソリューションの特徴(および資本支出の増大)の中間点となるソリューションは存在するのでしょうか?

Table of contents:

  1. ウェアハウス vs. レイク

  2. レイクハウスとは

  3. レイクハウスの利点

  4. レイクハウスの欠点

  5. まとめ

ウェアハウス vs. レイク

ウェアハウスにデータがある場合、それは構造化されており、厳密に管理されていることでしょう。データは正規化されており、どのフィールドにも扱いにくいものは含まれていません。構造化されているため、ビジネスを知っている人はすぐにデータを読むことができ、接続情報を設定したアプリケーションで使用可能です。

データレイクの場合、データは実際の湖の水のようにそのままで、ゆるやかにバインドされています。構造化されたデータを含めることもできますが、データは主に非構造化または半構造化されている可能性が高いです。構造化された強度が失われるのと同時に、レイクに乗り換えるということは、ウェアハウスのACIDコンプライアンスも失うことを意味します。ちなみにACIDとは、以下の頭文字になります。

  • A -原子性。トランザクションは完全に成功するか、または完全に失敗する(部分的な成功無し)。
  • C - 一貫性。データベースシステムの制約は従うことを期待できる。
  • I - 分離。トランザクションは互いに独立して動作し、互いに影響を与えない。
  • D - 耐久性。トランザクションがコミットされると、その後のシステムクラッシュがあっても、トランザクションはコミットされたままである。

Databricks.comによると、"データレイクの約束の多くが実現されておらず、多くの場合、データウェアハウスの利点の多くを失うことにつながっている"というのが理由の一つのようです。

もし、いずれか片方もしくは両方のソリューションをよく知らない場合は、「データレイクとデータウェアハウス:7 Key Differences」を読むことで、理解を早めることができるでしょう。

データレイクハウスとは

データレイクハウスは、その名の通り、プロバイダーが両方のストレージ方式のベストを備えたデータストアへの要求を満たそうとする新しい(少なくとも最近は人気のある)トレンドです。つまり、開発者やデータアナリストは、データレイクのスケーラビリティとアジリティに加えて、データウェアハウスのもつ信頼性と構造を手に入れることができます。構造化されていないデータはAIやその他のデータサイエンスの目的のために機能として残していますが、構造化されたスキーマ・オン・ライトのデータであれば、素早くデータを読み取ることができます。データがレイクハウスに流れれば、開発者でもデータサイエンティストでも、ETLやELTにより、ビジネスの機能がカバーされます。

2つの方式はどのように調整されるのでしょうか?基本的には、レイクハウスの上にウェアハウス層が存在し、品質管理のためのスキーマが強制的に適用され、BIやレポートの基盤を提供します。この層はまた、バージョニング、メタデータ管理、処理、検証を提供します。しかし、ツールの下にある実際のデータに関しては、構造化されたもの、構造化されていないもの、あるいはその中間のようなものが混在しています。

thumbnail image

レイクハウスの動向(現在誰が利用しているかなど)に関する具体的な情報は乏しいのが現状です。しかし、これまでに議論してきたことを踏まえれば、BIのニーズが十分にある成熟した企業と、機械学習に投資できる最先端の企業の両方が恩恵を受けることができます。さらに、AIが業界全体の破壊者として迫りつつある中で、金融からヘルスケア、さらに運輸までのセクターは、ストレージに対するこの新しいアプローチの恩恵を受けることができます。

レイクハウスの利点

レイクハウスを構築するにはいくつかのオプションがあり、データ管理者は好みのソリューションを選ぶことができます。Google Big Query、Azure Synapse、Apache Drillがあります。AWSでも既存のレイク製品であるAthenaで提供しています。

データレイクハウスでは、ACIDトランザクションはそのままで、TableauなどのBIツールはデータからデータを引き出すことができるため、重要なビジネス上の意思決定を行うことができます。技術的な観点からは、管理するプラットフォームのリストが少なくて済むということも意味しています。データはすべて1つのプラットフォーム上に存在するため、従業員は複数のプラットフォームで異なる接続情報を追跡する必要がありません。さらに、レイクとウェアハウスの両方を維持する際に発生するセキュリティオーバーヘッド、肥大化したインフラ費用、重複データの問題も軽減されます。

また、インストールも簡単で、管理も簡単です。このため、小さなデータとOPSチームを持つ小規模企業は、追加機能の恩恵を受けることができ、妥協することがありません。これから先問題になる成熟度については、彼らにとっては大きな問題ではないでしょう。

レイクハウスの欠点

簡単に言うと、このハイブリッドはまだ初期段階にあり、この用語自体が最初に登場したのは2017年頃のことです。Advancing Analyticsによると、レイクハウスが提供しているものは--これまでに述べてきたように、いくつかありますが--まだBIの専門家が期待するレベルの機能にまで進化していないとのことです。データレイク・プラットフォームは、エンタープライズ・レベルでこれらの機能やその他の機能を追加していますが、レイクハウスが成熟したデータベースに対抗できるようになるまでには、少なくとも数年はかかるでしょう。

SQL Data Warehouseとしてウェアハウス側からスタートしたAzure SynapseにはApache Sparkが導入されていますが、今のところ一部の機能しか提供されていません。現状では、単一のツールで企業組織のすべてのジョブ機能を必要な処理能力で提供する準備ができているわけではなく、シンプルさだけではパフォーマンスのニーズを上回ることはないでしょう。

Integrate.ioは、企業のレイクとウェアハウスの部分を論理的に分けつつ、ソリューションを通して上記の問題のいくつかについて軽減することができます。

まとめ

このブログでは、データレイクハウスを定義し、そのメリットとデメリットについて説明してきました。レイクハウスはシンプルさと柔軟性を提供してくれますが、現在市場に出回っているツールの中で、企業の処理能力のニーズに対応できるものはまだありません。しかし、両方を必要としているスタートアップや小規模企業にとっては、検討する価値があるでしょう。それ以外の企業にとっては、これからの動向について注視しておく価値があるでしょう。

Integrate.ioでは、データウェアハウスとデータレイクを統合し、データレイクハウスの利点を得ることができます。私たちが提供する統合対象の一覧を見て、今すぐ始めてみてはいかがでしょうか?