DWH(データウェアハウス)とデータレイクの違いって?
DWH(Data Ware House:データウェアハウス)とデータレイクの違いを2つの点から見ていきましょう。
格納するデータ構造
DWHは構造化データ、データレイクは非構造化データとして格納します。そのため、DWHはデータの検索性、データレイクはデータの柔軟性に優れています。
DWHは、社内に散在するデータを集約するためのツールです。各種アプリケーションやデータベースから情報を集めます。データの保存形式や項目名は統一され、ユーザーが閲覧しやすい形で表示されます。構造化されているため、目的のデータを探し出すのも容易です。
一方、データレイクはテキストからGPSデータまで、幅広いデータをそのまま扱うツールです。保存されるデータは一切処理を加えていないため、目的に応じて柔軟に活用できます。ただし、その分DWHよりも大きいストレージが必要になるうえ、統一した扱いが難しいのが難点です。
利用目的の明確さ
DWHで扱うデータは利用目的が明確です。データは目的に応じて適切な処理が施され、無駄な部分を削ることで、洗練された状態で保存されます。たとえば、レポート作成に用いるのが目的であれば、SQLクエリが高速になるよう処理されます。
一方、データレイクに保存されるデータは利用目的が明確ではありません。目的が定まっていないために、構造化できないとも言えるでしょう。将来利用される可能性があるデータをひとまず非構造化データのまま格納します。
したがって、データレイクはDWHと比較し、消費ストレージの無駄が大きくなります。しかし、明らかに必要なデータしか保存しないDWHに対し、一見不要なデータが後から必要になった場合にも対応可能です。
そのため、将来を予測しづらい昨今のビジネス環境を踏まえ、データレイクのメリットに注目する企業が増えています。
エンドユーザー
DWHで保存されるデータは、データを扱う知識のある人が目的に応じて加工しています。具体的には、チャートやグラフなど、視覚的にわかりやすい状態でまとめられています。そのため、エンドユーザーにはデータを扱う専門知識が必要ありません。
一方、データレイクに保存されるデータは生の状態です。つまり、エンドユーザーはデータを目的に応じて自ら加工しなければなりません。しかし、逆に言えば、自分で設定した目的に応じて加工する自由があるということです。
専門知識を持つ人にとっては、DWHよりもデータを有効活用しやすいでしょう。したがって、DWHは一般のビジネスマン向け、データレイクはデータサイエンティスト向けのツールといえます。
自社に合ったシステムの選び方は?
DWHとデータレイクは一長一短です。どちらかがもう一方を淘汰する関係ではない点に注意しましょう。どちらのシステムを選ぶべきかは、業種によって大きく左右されます。例として2つの業種を見てみましょう。
- 教育
- 近年、教育現場におけるデータ活用の重要性が認識されています。生徒が抱える問題の把握や予測、解決にデータを役立てます。生徒に関する情報は非構造化データが多いです。
- したがって、それらの保存・活用に適したデータレイクが用いられています。
- 金融
- 金融業では、専門知識を要するデータを企業全体で扱えることが重要です。また、刻一刻と変化する経済状況を把握するため、高度なリアルタイム性も求められるでしょう。
- したがって、誰でも見やすい状態ですぐにデータを確認できるDWHが適しています。
DWHやデータレイクの導入前にするべきことは?
DWHやデータレイクの導入前にやるべきことを解説します。
収集データの分類
データを集約する際によく発生する問題が、欲しいデータが見つからないということです。データを正しく定義できていない、あるいは検索の質が低いのが原因です。
これを解消するには、メタデータを活用してデータの分類を行う必要があります。メタデータとは、データの性質を示したデータのことです。たとえば、ファイルの保存日時や作成者名、タグ情報などがあります。
これらの情報を整理し、情報を検索しやすい状態にすることでデータ活用が円滑化します。
予算の策定
データレイクとDWHはどちらも高額なコストがかかります。データレイクは大容量のストレージが、DWHは検索に優れた高性能なストレージが必要です。
具体的にどのくらいの金額になるかは、サービスによって大きく異なります。利用量やその形態によっても変わるでしょう。まず自社がDWHやデータレイクにかけられる予算を決めることが大切です。
現在多くの企業がIT投資を増やしています。一方、大型投資の反動で一時的に投資を減少させている企業もあります。自社の投資の現状と今後の展望を踏まえたうえで予算を策定しましょう。
DWHとデータレイクの違いを知り、適切なデータ収集を!
DWHとデータレイクには以下の違いがあります。
- ■格納するデータ構造
- ■利用目的の明確性
- ■エンドユーザー
どちらを選ぶべきかは企業や業種によって異なります。構造化データと非構造化データのどちらを扱いたいのかよく検討しましょう。
以下の記事では、DWHを導入することによってどのような課題を解決できるのか、また他にどのようなメリットがあるのかについて詳しく説明しています。DWHの導入を検討している方は、是非参考にしてみてはいかがですか。
関連記事
watch_later
2023.02.06
DWHで解決できる課題と導入メリットとは
続きを読む ≫