DWHはデータベースと比べてどのようなメリットがあるのでしょうか。この記事ではデータベースの種類やDWHとデータベースの比較、DWHを使うメリット、DWHの使用例などをご紹介します。
そもそもデータベースとは?
データベースとはコンピュータなどによる蓄積や検索などを行う際に便利なように整理された情報の集まりですデータベースは特定の場所に条件に該当する複数のデータを集めたもので、基本的にはコンピュータ上で管理するものを指します。
また、データベースを管理するシステム(DBMS)のことをデータベースと呼ぶ場合もありますが、単にシステム上で扱うデータの集まりのことをデータベースと呼ぶこともあります。
データベースの種類4つ
データベースは蓄積した情報をコンピュータによっていつでも簡単に検索し、抽出することができるデータの集合体です。また、データベースにはいくつかの種類があり、それぞれできることや特徴が異なります。
ここではデータベースの種類4つをご紹介します。
種類1:NoSQL
NoSQLとはリレーショナル型以外のデータベースを指します。データベースは大別するとリレーショナル型とNoSQLとに分けられます。リレーショナル型のデータベースは、行と列からなる「表」で表されたデータベースとなっています。そのため、表で表すデータベース以外のデータベースをNoSQLと呼びます。また、NoSQLはリレーショナル型以外のデータベースを発展させるための標語として扱われることもあります。
種類2:リレーショナル型
リレーショナル型とは列と行で構成された「表」で表されたデータベースです。一般的に用いられているデータベースで、現在データベースといえばリレーショナル型を指すケースがほとんどです。リレーショナル型はそれ以前のデータベースの課題となっていた柔軟なデータの取り扱いを可能にし、汎用性を向上させました。ただし、リレーショナル型のデータベースはプログラムが複雑化しやすく、処理速度が遅いという欠点もあります。
種類3:ネットワーク型
ネットワーク型とは網状に構成されたデータベースです。ネットワーク型のデータベースは、1つの子ノードが複数の親ノードを持てる構成になっています。そのため、重複登録を防ぐことができます。ただし、ネットワーク型データベースはプログラムがデータ構造に依存してしまうという問題があります。そのため、データ構造への依存が高い場合、データの柔軟な取り扱いに支障をきたすケースがあります。
種類4:階層型
階層型とはツリー状に構成されたデータベースです。階層型では1つのノードから複数のノードが派生してツリー上に展開していくことでデータを表します。基本的に親ノードと子ノードは1対複数の関係になり、特定のノードへのルートが限定的になることから速度が速いという特徴があります。ただし、子が複数の親を持ちたい場合は重複登録を行う必要があり、データが不自然になるという欠点もあります。
DWHとは?
DWHとはデータウェアハウス(Data Ware House)を略した言葉です。DWHは意志決定のために目的別に編成された、時系列に統合されたデータの集合体です。言葉としては「データの倉庫」という意味があります。データウェアハウスは1990年頃にアメリカのコンサルタントであるビル・インモン氏が提唱した言葉で、単なるデータの集まりではなく、意思決定を目的としたデータの集合体であるという点が特徴になります。
DWHとデータベースの比較5つ
DWHとデータベースにはさまざまな違いがあります。コンピュータで扱いやすいように整理されたデータの集まりであるデータベースと、意思決定を目的として編成されたデータの集合体であるデータウェアハウスは、ほとんど同じもののように思えます。それでは具体的にどのような違いがあるのでしょうか。
ここではDWHとデータベースの比較5つをご紹介します。
比較1:データ保存容量
DWHとデータベースを比較すると、データ保存容量に違いがあります。普通のデータベースの場合、処理速度や保存容量という観点から基本的に現在の業務に必要なデータを保存しておき、必要な時にすぐに使えるようにしています。それと比較して、DWHはデータの倉庫として用いられることから、現在は使っていない過去の情報まで保管できるようにデータの保存容量が非常に大きいという違いがあります。
比較2:分析の最適化
DWHとデータベースを比較すると、分析のしやすさに違いがあります。システムによってデータの保存の仕方にも違いがありますが、普通のデータベースでシステムから別のシステムへデータを移動するには大きな負荷がかかります。それと比較して、DWHは分析に最適化されているため、スムーズなデータ分析が可能になるという違いがあります。
比較3:時系列
DWHとデータベースを比較すると、時系列になっているかどうかに違いがあります。前述のとおり、データベースは処理速度などの問題から現在の業務に必要なデータのみを残しておき、古いデータは削除されます。それと比較して、DWHはデータの倉庫としての役割が強いため、新しいデータが入ってきても古いデータを削除せずに残しています。そのため、データが時系列で保管されているという特徴があります。
比較4:データ更新
DWHとデータベースを比較すると、データ更新に違いがあります。データベースは基本的に業務システムなどに用いられることを想定しているため、不要になったデータや更新前の古いデータは随時削除していきます。それと比較して、DWHは分析に用いられることを想定しているため、データの更新や削除などは行いません。
比較5:データの統合
DWHとデータベースを比較すると、データの統合に違いがあります。DWHは単に複数のシステムからデータを集めて保管しておくだけではありません。DWHは企業のさまざまなデータを集め、中身が同じ内容になっていないかどうかまで調べ、論理的に統合する仕組みになっています。
DWHを使うメリット
企業で利用する基幹システムなどに用いるだけなら、データベースで問題ないケースも多いです。それでは、DWHを利用することでどのようなメリットが考えられるのでしょうか。ここからはDWHを使うメリットをご紹介します。
データの統合的な分析が可能になる
DWHを用いることでシステム横断型分析が可能になります。データベースの場合、企業が利用している会計システムや販売管理システム、生産管理システムなどさまざまなシステムで個別に持った状態になります。そのため、組み合わせた分析はできません。しかしそれらのデータを統合できるDWHであれば、システムを横断した統合的な分析ができるというメリットがあります。
目的を時系列に蓄積できる
DWHを用いることでデータを目的別に時系列で持つことが可能になります。DWHには意思決定を目的とし、時系列に蓄積されたデータの集合体であるという定義があります。実際に古いデータでも削除せず、時系列で保管することがDWHの特徴になります。そのため、DWHには分析などの目的のために時系列にデータを保管しておけるというメリットがあります。
DWHの使用例3つ
ここまでご紹介したとおり、DWHは古いデータでも時系列に保管しておくことにより、分析に活用できるデータの集合体です。そのため、一般的にはPOSシステムのデータ分析などに利用されるケースも多くなっています。それでは、DWHには他にどのような使用例があるのでしょうか。ここではDWHの使用例3つをご紹介します。
使用例1:マーケティング戦略
データウェアハウスでは、データは社内のさまざまな業務アプリケーションや外部のパートナーシステムなどから収集されることになります。また、販売や顧客、地域などのあらゆるデータを活用することで、効果的なマーケティング戦略を立案することができます。
使用例2:値引き金額
データウェアハウスはデータベースよりも高いクオリティのデータを扱えるため、ユーザーの健全な意思決定に活用することができます。そのため、傾向分析によってサービス手数料や値引き金額の設定に用いられることがあります。
使用例3:顧客離れ
データウェアハウスでは顧客に関連した過去のデータを分析することができるため、顧客の離反や休眠化を防ぐための要因分析に利用されます。また、分析することで有効な対策を打つことも可能です。
まとめ
データウェアハウスは単なるデータの集まりであるデータベースと違い、ユーザーの意思決定を目的とした時系列に整理されたデータの集合体です。
ぜひこの記事でご紹介したDWHとデータベースの比較、DWHを使うメリットなどを参考に、データベースとDWHの違いについて理解を深めてみてはいかがでしょうか。