本記事は、「データウェアハウスの父」と呼ばれるアメリカのコンピュータ科学者、ビル・インモン氏が書いた Integrate.io のゲストポストです。彼は、データウェアハウスに関する最初の本と最初の雑誌のコラムを執筆し、このトピックに関する最初の会議を開催し、データウェアハウスのクラスを教えた最初の人物です。

このテーマについて知っておくべき5点:

  1. データウェアハウスは、1980年代にさかのぼり、これが普及する前は、データベースをトランザクション処理に使っていた。
  2. ビル・インモン氏は、「データウェアハウスは単一の物理的なデータソースに存在する方が便利」だと主張する。
  3. しかし、ウェアハウスは、記録の運用システムの原則に従う限り、複数の物理的なプラットフォームでの存在が可能。
  4. インモン氏は、「”ウェアハウスは単一の物理的なソースでなければならない”と考える人は、データウェアハウスがわかっていない」と言っている。
  5. Integrate.ioは、データ分析と意思決定のためのローコードのデータウェアハウス統合プラットフォームの第一線にいる。

データウェアハウスは、1980年代から存在しており、データウェアハウスが登場する以前は、データベースは主にトランザクション処理に使われていました。トランザクション処理の目的の1つは、常に高いパフォーマンスを確保することであり、ユーザーがトランザクションデータベースのパフォーマンスを上げる方法の1つは、限られた量の履歴データのみを収集することでした。なお、トランザクションデータベースに保存されるデータの典型的な範囲は、1カ月分からせいぜい4半期分程度でした。

そのため、データウェアハウスが登場すると、1年から5年分のデータが保存されるようになり、標準的なトランザクションデータベースでは収容しきれないほどのデータが保存されるようになったのです。

そこで、「データウェアハウスは、1つの物理的なデータベース上に置かれる必要があるのか」という疑問が浮かびました。

目次

サポートされているデータウェアハウスへのデータ移動は、大変である必要はありません。Integrate.io は、ETL、ELT、リバース ETL、および超高速のCDC(変更データ取得)を通じて、データ統合プロセスを完璧なものにします。すぐに使えるローコード又はノーコードコネクターにより、専門用語や技術的な知識がなくても、より強固なデータ分析のためにロケーション間でデータを移動させることができます。14 日間の無料トライアルで、Integrate.io をぜひお試しください

データウェアハウスが大きくなった方法

データウェアハウスが巨大化した原因には様々な要因があり、その要因の1つが、テキストの曖昧性解消によって渡された後にデータウェアハウス内に格納されるテキストの出現でした。データウェアハウスがトランザクションベースの構造化されたデータのみを保存している限り、データウェアハウスのサイズは許容範囲内でした。

ところが、テキストベースのデータが含まれるようになると、データウェアハウスの規模が膨れ上がってしまったのです。

データウェアハウスは単一の物理的なソース上に置かれるべきか

確かに、データウェアハウスがデータの単一の物理的なソース上に置かれる場合、多くのプロセスにとってより便利ですが、さまざまな理由から、データ ウェアハウスが複数に存在するのが都合がいいかもしれません。いずれにせよ、データ ウェアハウスが記録システムの原則に従っている限り、問題はありません。

記録システムの原理を理解するために、例えばバンク・オブ・アメリカのような大きな銀行について考えてみましょう。この銀行は、多くの顧客を抱え、多くの活動を展開しており、大規模で複雑なデータベースと記憶装置を持っています。さて、あなたがバンク・オブ・アメリカに口座を持っているとしましょう。あなたの口座の残高は、銀行の中の一箇所にしか存在しません。もし、口座の残高が複数の場所に存在するとしたら、あなたと銀行の両方に問題が降りかかることになります。銀行は記録システムの原則に従っており、多くの物理的なデータベースを持っているかもしれませんが、そのデータベースはこのような原則に従って組織化されています。

そこでIntegrate.ioが、高度なデータエンジニアリングやパイプライン構築を必要としない、すぐに使えるローコード/ノーコードコネクターによって、顧客の企業がデータをウェアハウスに移動できるようお手伝いします。ぜひ今すぐETLまたはELTのトライアルをお試し下さい。

データウェアハウスを別々のセクションに分割しない理由

データウェアハウスを別々の部門に分割することには、非常に良い理由がありそうです。その理由の1つは、データへのアクセス率の違いかもしれません。あるデータにはユーザーがアクセスする率が高く、他のデータにはあまりアクセスしない可能性があります。アクセス確率の高いデータをある場所に置き、アクセス頻度の低いデータを別の場所に保管することは、非常に有効な戦略になります。

データウェアハウスのデータが存在する物理的な場所は、何も1つだけであるべきというわけではありません。従わなければならない唯一の原則は、「記録システムの原則の遵守」です。そして、その記録システムは、多くの様々な物理的なデバイスに分散させられます。

まとめ

「データウェアハウスは単一の物理的なデータストアでなければならない」と言う人は、データウェアハウスをわかっていません。確かに、ウェアハウスは1つの物理的なソースに存在した方が便利な場合がありますが、記録システムの原則に従う限り、ウェアハウスは複数の物理的プラットフォームに存在することができるのです。

Integrate.io は、データ分析のためのローコードのデータウェアハウス統合プラットフォームの新たに第一線で活躍する会社です。使いやすいコネクタを使って、データをソースからサポートされている宛先に数分で移動しませんか。14日間のトライアルをぜひ今すぐお試しください


「データウェアハウスの父」と呼ばれるビル・インモン氏は、65冊の著書を執筆しており、コンピューターワールド誌は、彼をコンピューター史上最も影響力のある人物10人のうちの1人に選びました。コロラド州キャッスルロックに拠点を置くフォレスト・リム・テクノロジー社は、企業が顧客の声に耳を傾けるお手伝いをしています。詳しくは、www.forestrimtech.comをご覧ください。