ビッグデータの概要と種類
近年、業務のデジタル化やIoT・AIの普及により、企業が扱うデータの量と種類は急速に拡大しています。こうした膨大で多様なデータは「ビッグデータ」と呼ばれ、マーケティング、業務改善、意思決定支援など、さまざまな分野で活用されています。ここでは、ビッグデータの基本的な意味や特徴を整理し、どのような種類のデータがあるのかをわかりやすく解説します。
ビッグデータとは
ビッグデータとは、ある目的のために必要な情報が含まれた膨大なデータ群を指します。IoTやAIなどの技術の進化により、企業はこれまで以上に多くのデータを容易に収集・蓄積できるようになりました。そして2010年ごろからは、その活用が一般化し、業務で扱うデータ量も急増しています。
総務省の調査によれば、eコマースやPOSデータなどの販売記録、GPSログ、Webアクセス履歴、電話の音声データといった自動取得情報の活用が広がっており、今後もその増加は加速すると見込まれています。
ビッグデータの種類
取り扱うデータの量だけでなく、種類も多様化しています。ビッグデータは大きく以下の3つに分類され、それぞれに適した処理方式やデータベース構造が求められます。
- ● 構造化データ:表形式で整理されたデータ。売上管理や顧客リストなど。
- ● 非構造化データ:音声、動画、画像、メール本文など、明確な形式をもたないデータ。
- ● 半構造化データ:XMLやJSON形式で保存される柔軟な構造のデータ。
これら多様なデータを高速に処理・分析するためには、従来のRDBに加えてインメモリデータベースや列指向データベースなどの新しい技術への対応が求められます。
ビッグデータ活用に求められるデータベースの進化
ビッグデータは、IoT・AIなどの技術発展により、データを手軽に収集・活用できるようになりました。そして2010年ごろからはビッグデータが広く普及し、取り扱うデータの量が急増しました。総務省の調査によると、eコマースやPOSデータなどの販売記録やログ・GPS情報などの自動取得データの活用が進展したほか、電話などの音声データ活用も増えたそうです。
取り扱うデータの種類や量は、企業規模を問わず今後も爆発的に増えていくことが予想されるでしょう。そこで、ビッグデータに対応するためデータベースの高速化が進められています。具体的には、高速インメモリデータベースや列指向を利用する高速データベースが挙げられます。
参考:総務省|令和2年版 情報通信白書|日本企業におけるデータ活用の現状
ビッグデータに対応するデータベースとは
企業が扱うデータは日々膨大さを増し、従来のデータベースでは検索や集計に時間がかかるという課題も顕在化しています。特にリアルタイム分析や迅速な意思決定を行うには、データベースそのものの処理性能が求められるようになっています。
高速なインメモリデータベース(IMDB)
インメモリデータベースはすべてのデータをメモリ上で処理するため、ディスクからデータを読み出すのに比べ非常に高速な処理が可能です。
インメモリデータベースは更新したデータを保持できる場所に書き込んで保存しておく必要があります。そのため高速な処理は難しいものの、メモリ上にあるデータを読み出すだけの検索処理において大幅な高速化を実現します。
列指向を利用する高速データベース
列指向は、データを行ではなく列でもつことで検索処理を高速化するデータベースです。列指向とインメモリをあわせて実装し、検索処理をより高速化させるのが最新のトレンドとなっています。
またコスト面においてディスクより高価なメモリですが、すでにインメモリはデータベースの一つの機能として必須のものになっています。そのため今後はインメモリ機能の有無ではなく、「インメモリを自社の業務にどう活用できるか」や、「いかに目的を達成できるか」の観点から選択をすることが主流になるでしょう。
ビッグデータ分析に適したデータベースの活用例
ビッグデータを蓄積するだけでなく、活用価値を最大化するためには「分析に適したデータベース」の導入が欠かせません。大量のデータから意味のある情報を抽出し、業務改善や経営判断につなげるには、検索性や集計性能に優れたデータベースが必要です。例えば、以下のような活用例が挙げられます。
- ● 売上データや購買履歴をもとに、商品別・地域別の売れ筋をリアルタイムで分析
- ● Webアクセスログから、ユーザー行動や離脱ポイントを可視化
- ● IoT機器の稼働ログを分析し、保守タイミングや異常傾向を予測
こうした分析業務では、インメモリデータベースや列指向型データベースのように、特定の条件での絞り込みや大量データの並列処理に強いシステムが活躍します。また、BIツールやAIと連携できるかどうかも、選定の重要なポイントです。
ビッグデータの利用で必須なNoSQLとは
ビッグデータ登場前に主流であったRDB(リレーショナルデータベース)ですが、扱えるデータの範囲に限界がありました。そこで生まれた技術がNoSQLです。
ここではビッグデータを扱ううえで必要なNoSQLについて特性や種類をふまえて解説します。
ビッグデータを得意とするNoSQL
長い間データベースといえばリレーショナルデータベース(RDB)が主流でした。しかしここ数年で、GoogleやAmazonでも実装されているNoSQLを利用する企業が増えてきました。
NoSQLとはデータをテーブル管理するのではなく、XMLやJSONのフォーマットを用いたドキュメント型のデータベースを指します。NoSQLはRDB以外のデータベース管理システムの総称で、処理速度に優れているのが特徴です。
増えるデータと広がるNoSQLの活用
ソーシャルメディアのデータ、Webのログ、リアルタイムランキングなど現在はさまざまなタイプのデータ処理が必要です。またデータもコンピュータだけでなくスマートフォン、タブレットなどいくつものデバイスからデータが集まるため、RDBでは効率的に扱えない場合が増えています。その際に多彩なデータを柔軟に扱えるスキーマレスなNoSQLが効果を発揮します。
NoSQLでは、エクセルやCSVファイルのような構造化データだけでなく、画像や動画などのデータも蓄積可能です。対してRDBは構造化データしか扱えないため、複雑化したデータに対応すべくNoSQLが注目されるようになりました。
NoSQLの種類
ここではNoSQLの種類について解説します。NoSQLは大きく分けて4つの型に分類できます。順番にみていきましょう。
高速なキーバリュー型(KVS)
データの管理やアクセスはキーに対して行います。そしてそのキーに対してバリューが存在します。拡張性に優れ、データの読込がRDBと比較して高速です。
列指向のワイドカラムストア型
日本語では列指向とも呼ばれています。データは行で管理されますが、アクセスはKVSと同じようにキーを使用して列単位となります。列に対して数億というデータの追加が可能で、データの書き込みが高速です。
柔軟な開発ができるドキュメント型
キーに対してバリューではなく、より複雑なドキュメントとしてデータを格納します。XMLやJSONといった スキーマレスでデータ構造が柔軟なため、生産性高く柔軟な開発が可能です。
データをモデル化するグラフ型
グラフ理論に基づき相互に結びついた要素で構成されています。グラフデータベースは、RDBでは不可能だった形でデータの関係をモデル化し探索することを得意とします。
RDBとNoSQLのメリットを掛け合わせたNewSQL
NoSQLのさらに進化した形としてNewSQLがあります。これはNoSQLのスケーラビリティとRDBのトランザクション機能をあわせ持ったデータベースです。一般的な知名度はまだ低いですが、高度なデータ処理をしつつビッグデータにも対応できるスケーラビリティを求める企業には、選択肢の一つとなるでしょう。
また以下の記事ではビッグデータに限らないデータベースの変遷について解説します。データベースの歴史や誕生背景について知りたい方は参考にしてください。
RDBとNoSQLの活用でビッグデータを処理しよう
NoSQLの登場によってデータベースの選択肢が一気に拡がったものの、今すぐにすべてがNoSQLに置き換えられる訳ではありません。NewSQLの登場を見てもわかるようにRDBが必要な場面もまだまだあり、必要に応じてどちらか、もしくは併用するといった形がこれからも続くでしょう。


