DWH(データウェアハウス)とデータマートの違いは?
まずは、DWHとデータマートの違いを見ていきましょう。
DWH:企業全体のデータを蓄積したもの
業務で利用するデータは会社の財産であり、適切な意思決定に必要な材料です。
近年では1つの企業で基幹システムのほかにも複数のシステムを使うケースがあり、データ総量は膨大になります。しかし、価値あるデータが乱雑に保管されていれば、必要なタイミングにデータを取り出せません。
DWHを利用すれば、企業全体のデータを目的別・時系列ごとに管理できます。このように整理されたデータベースを利用すれば、企業の意思決定がスムーズになるため、業務効率が向上するでしょう。
また、DWHは特定のシステムに使われるものではなく、全社で活用するためのインフラです。そのため、各組織でもデータベースを有効活用できるように、IT部門が主導となって運用することが大切です。
以下の記事では、DWH(データウェアハウス)とは何かに関して詳しく解説されています。DWHに興味を持った方は是非見てみてください。
関連記事
watch_later
2019.11.28
DWH(データウェアハウス)とは?要件・活用事例まで詳しく解説
続きを読む ≫
データマート:企業のデータを一部取り出したもの
データマートは企業の総データ(DWH)の中から、目的に応じて一部を取り出したデータベースです。
DWHを利用用途に応じてカスタマイズした細かい単位のデータベースです。実際に、DWHは100GB以上のサイズが一般的ですが、データマートのサイズは100GB未満ほどとなります。
複数のデータマートを作成し別々に管理する場合は、データが重複することもあるため注意してください。DWHの場合は、全体を一元管理しているため、データの重複は起こりません。
データマートは、小分けにした多次元データベース方式の「キューブ」が使われることが多いです。キューブは時間や場所、担当などの複数の要素を、さまざまな角度から分析できる構造をしています。
より深くデータを分析し、新しい規則性を見つけられる方法であるため、多くの企業で採用されています。
DWHとデータマートのどちらを選ぶべき?
DWHであればデータを一元管理することで、データの運用コストの削減・業務効率の向上が期待できます。そのため、近年ではデータマート主体のデータベース体制から、DWHを取り入れる企業が増えています。
データマートは目的に特化したデータベースのため、使い勝手が良いというメリットがあります。また、データベースを短期間で構築でき、比較的安価なことも利点です。しかし、データベースを管理するためには手間がかかるため、データマートが複数あると非効率的でしょう。
データマートからDWHへ切り替える負荷は非常に大きいため、急な移行はおすすめしません。そのため、DWHは計画的な移行が求められます。
まずは統合できるタイプのデータマートをベースにDWHを組み立て、徐々にDWHで情報を一元化していきましょう。
注目を集める「データレイク」とは?
データレイクとは、DWHよりもさらに規模が大きいデータベースの概念です。社内にはログや画像ファイルのような「非構造化データ」から、データ属性をタグ付けした「構造化データ」まであります。
データレイクは、この構造化・非構造化データを一元管理できる保管庫のことです。
今までは、必要なデータを分析・絞り込んでからデータベース形式で保存しないと、活用できませんでした。手間がかかる以外にも、元データを加工しているため、分析対象が変わるとデータ不足になることもあります。
データレイクを使えば本来あるべき姿のデータを保管し、そのまま活用できます。
ビジネスではどのような情報が価値を持つのか分かりません。データレイクがあれば社内のデータを全て集約し、必要なタイミングで活用できます。保有しているデータを最大限活用するためにも、データレイクを取り入れる企業が増えています。
以下の記事では、DWHとデータレイクとの違いに触れつつ、データレイクをより詳しく解説しています。参考にしてみてはいかがでしょうか。
関連記事
watch_later
2019.11.28
DWH(データウェアハウス)とデータレイクの違いって?
続きを読む ≫
DWHやデータレイクの導入前にすべきこと
最後に、DWHやデータレイクを導入する前にどのような点に注意すべきか見ていきましょう。
利用目的を明らかにする
DWHは用途別に分類されたデータを時系列ごとに管理するものなので、導入する前に管理単位となる目的を決めなければなりません。重要なのは、DWHを使ってどのようなデータを分析し、活用するのかを検討することです。データレイクを導入する場合も同様です。
利用目的を明確化せずにDWHやデータレイクを構築すると、非常に使い勝手が悪いシステムになりかねません。また、用途ごとに誰が責任を持って管理するのか、運用体制を決めておくことも大切です。
予算を明らかにする
DWHやデータレイクがあれば社内のデータを有効活用できますが、構築・運用には大きなコストが発生します。
データレイクが必要な規模の企業であれば、管理・維持費だけで年間数百万円かかることも珍しくありません。さらに、運用担当者の人件費もかかるため、費用面の負担は大きいです。
また、集約しているデータを有効活用するために、BIツールを導入することもあるでしょう。そうなれば当然、BIツールの利用料金も必要です。システムの構築からデータ活用までの流れを考え、どれくらいの予算まで確保できるか決めなければなりません。
また、データベースの運用負荷軽減量や、生み出される価値から費用対効果を算出して検討しましょう。
どのような製品があるのかを理解する
DWH製品にもさまざまな種類があり、製品ごとに強みとなる特徴が変わります。利用目的を明確にしていれば、どのような製品を選べば良いか分かりやすくなるでしょう。例えば、顧客の購入サイクルが短く、迅速な対応が求められる場合は、分析スピードが速い製品が好まれます。
また、データベースの分析には専門的な知識が必要ですが、社内の従業員の知識レベルで扱えるかどうかも重要です。既存の製品との連携やシステムの拡張が可能かどうかも確認しておきましょう。せっかく導入しても有効活用できなければ、導入後に後悔してしまいます。
DWHやデータレイクの導入で、効果的にデータを蓄積!
DWHがあれば、社内のビッグデータを有効活用して新しい価値を創造できます。しかし、複雑なシステムであるため、構築・運用には膨大なコストが必要です。
まずは多くの企業で利用されているデータマートと比較し、自社にとって必要か検討してください。DWHやデータレイクを導入する際は、利用目的を明確にして予算を決めることが大切です。
自社に最適なDWHやデータレイクを導入して、データを活用しましょう。