これは、「データウェアハウスの父」と呼ばれるアメリカのコンピュータ科学者、ビル・インモン氏が書いた Integrate.io の寄稿です。彼は、データウェアハウスに関する最初の本と最初の雑誌のコラムを執筆し、このトピックに関する初の会議を開き、データウェアハウスのクラスを教えた最初の人物です。

このトピックについて知っておくべき5点:

  1. コンピュータ科学者のビル・インマン氏は、『データウェアハウスは、潰そうとしたり評判を落とそうとする試みがあるにもかかわらず、非常に活発である』と論じている。
  2. ELT、データマート、ビッグデータなど、データウェアハウスにダメージを与えることを目的とした取り組みにより、データウェアハウスのアーキテクチャは強化された。
  3. 多くのベンダーやIT専門家は、データの統合に時間をかけたくないという理由から、データウェアハウスのコンセプトを好まない。
  4. データウェアハウスは、データのサイロを取り除き、Eコマースのデータを一元化する唯一の方法である。
  5. Integrate.io は、データの統合をシンプルにするローコードのデータウェアハウス統合プラットフォームである。

データウェアハウスは、テクノロジーのモグラたたきです。モグラが無造作に穴から頭を出してきてそれを叩くゲームのように、データウェアハウスはどんどん出てきてどこにも行かないんです。モグラと同じです。そして企業は、そのデータハウスをこれまで以上に使っているのです。

データウェアハウスが行うこの「モグラたたき」は、この技術の背後にベンダーも組織もいないので、特に印象的です。データウェアハウスは、エンドユーザーのみによって支えられており、データウェアハウスを決定する委員会、企業、組織は存在しません。データウェアハウスは、それ自体が全てなのです。

では、誰がデータウェアハウスを潰そうとしているのでしょうか?穴からランダムに飛び出し続ける「モグラ」を、誰が叩いてきたのでしょうか?以下で詳しく見ていきましょう!

目次

Integrate.io は、データ分析のためのデータウェアハウスのパワーと重要性を認識しています。ローコードですぐに使えるコネクターにより、わずか数分でソースからサポートされているウェアハウスにデータを ETL することができ、売上、顧客、在庫などに関する貴重なインサイトを生み出すことができます。また、Integrate.io の ELT、リバース ETL、超高速CDC(変更データキャプチャ)ツールにより、データ統合プロセスの効率化が実現します。14日間の無料トライアルで、Integrate.io をぜひお試し下さい

データウェアハウスを脅かすもの

これまでにも、データウェアハウスを潰そうとしたり、回避したりする試みは、かなり大きな規模で以下のように行われてきました:

  • 次元モデリングとスター結合。ラルフ・キンボール氏は、1996年の著書 "『データウェアハウスツールキット』 でデータマートのアイデアを紹介しました。彼は、アプリケーションから直接データマートを構築すればよいと述べており、彼のアプローチを使えば、厄介で構築の難しいデータウェアハウスは不要でした。
  • ETLのELTへの変更。世界の大手ベンダーは、ELT(抽出、格納、変換)という、ETL(抽出、変換、格納)の子孫のようなものを提供してくれました。ELTの仕掛けは、『E(抽出)』と『L(格納)』を行い、都合よく『T(変換)』を行うのを忘れたことです。そうすることで、ある場所から次の場所へのデータのコピーだけで事足りました。ELTを使えば、データウェアハウスは不要でした。
  • ビッグデータ。 ビッグデータが登場し、データウェアハウスは必要ないと宣言されました。Clouderaなどの大手メインフレームベンダーは、ビッグデータがあれば、データウェアハウスは不要だと言いました。ビッグデータに都合よくデータを保存しておけばそれでいいのです。
  • それなら、必要なのはデータレイクだけであり、データウェアハウスのような不気味で複雑なことは不要でした。データレイクにすべてのデータを落とせば、それで話は終わりです。
  • データメッシュやデータマッシュの登場。データの接続方法さえ工夫すれば、データウェアハウスは不要と言われました。
  • データ科学者は、データウェアハウスを軽蔑していた。彼らは学校で統計的アルゴリズムを学び、実社会では95%の時間がデータとの奮闘に費やされましたが、データウェアハウスは自分たちの足元にも及ばないと考えていました。
  • データウェアハウスとは、単にデータの束をぎゅっと詰めたものだと思っている人がいた。そして、それをするのは手がかかる作業だったのです。

データウェアハウスの評判を落とそうとするこのような取り組みの中には、非常に多くの資金が投入され、多くの宣伝がなされたものもありましたが、どれもデータウェアハウスを潰すことはできませんでした。

Integrate.io の理念は、データウェアハウスのシンプル化です。もう、複雑なビッグデータパイプラインの構築や、データエンジニアリングチームの雇用は必要はありません。Integrate.io のネイティブコネクタを使ってデータをサポートされているウェアハウスに移動し、ECプロセスに関するインテリジェンスを生成するだけです。ETL のトライアルまたは ELT のトライアルをぜひ今すぐお試し下さい。

データウェアハウスがさらに強くなった理由

このようにデータウェアハウスをゴミ箱行きにすることで、かえってそのアーキテクチャが強固になったものもあります。

例えば、データウェアハウスへのデータマートの追加は、非常に良いことであることがわかりました。データマートを使えば、データをカスタマイズすることができ、同時にデータの整合性を高めることができることから、ラルフ・キンボール氏によるデータマートとデータウェアハウスに追加されたディメンションモデルの貢献は貴重なものだったのです。

さらにビッグデータは、それまで存在しなかった拡張性の面をデータウェアハウスに追加しました。データウェアハウスにあるアクセス確率の低いデータは、ビッグデータに非常に都合よくフィットしたのです。ただ、ビッグデータを広めた人たちはそのように考えていなかったので、思いがけず良い結果となりました。

データレイクを支持した人たちは、新しい種類のデータをうっかりデータウェアハウスに押し込んでしまいました。データレイクで、アナログデータやIoT(モノのインターネット)データ、テキストデータもデータウェアハウスに取り込まれるようになったのです。

つまり、データウェアハウスを潰そうとした人たちが、データウェアハウスを改善したのです。

データウェアハウスを嫌う人がいる理由

では、データウェアハウスの何が問題なのでしょうか?なぜデータウェアハウスを潰したがる人がいるのでしょうか?あるいは評判を落とすのでしょうか?理由はたくさんありますが、第一の理由は、『データ統合』という恐ろしい仕事をしたくないのです。

データウェアハウスではデータの統合が必要なのですが、統合は、複雑で、ハイリスクで、難しく、不正確で、調査が必要です。データ統合には、頭と重労働が必要であり、ベンダーはそれを嫌がるのです。

EC企業では、情報の巨大なサイロがよく存在し、互いに対話することができず、そしてそのサイロは、企業全体の分析処理を妨げています。このようなサイロを解消する唯一の方法は、サイロ内のデータを統合し、統合されたデータをデータウェアハウスに置くことです。

単に他に方法がないのです。

しかし、ベンダーや多くのIT専門家は、サイロ化したデータを統合するためのバックボーンや知識を持ち合わせていないため、サイロが残ってしまい、企業/エンタープライズのデータ分析にはとらえどころのない、到達しがたい目標が残ります。

ベンダーは、データの統合に戻るくらいなら、裸足で赤々と燃える炭の上を歩いた方がマシだと思うくらいです。何が問題かというと、データウェアハウスの価値の大部分には、データ統合の基盤があるのです。

まとめ

そして2022年のデータウェアハウスです。モグラたたきのようにまだ続いています。「RIP(Rest in Peace:安らかに、、、)」はウェアハウスの終焉を意味するのではなく、まったく別のものを指しています。データウェアハウスのコンテクストでは、「RIP」は『Resilient Information Processing(回復力のある情報処理)』という意味になります。

そうです、データウェアハウスは、それを潰したり無視しようとしたりする多大な努力にもかかわらず、生き続けているのです。

データウェアハウスはとても活発です! Integrate.io は、Eコマースのために作られたローコードのデータウェアハウス統合プラットフォームで、すぐに使えるコネクタを使って、サポートされているウェアハウスにデータを移動させることができます。データエンジニアリングの経験は必要ありません。ぜひこちらからデモをお申し込み下さい。

データウェアハウスの父と呼ばれるビル・インモン氏は、65冊の本を執筆しており、コンピューターワールド誌は、彼をコンピューター史上最も影響力のある10人のうちの1人に選びました。コロラド州キャッスルロックに拠点を置くフォレスト・リム・テクノロジー社は、企業が顧客の声に耳を傾けるお手伝いを行っています。詳しくは、www.forestrimtech.comをご覧ください。