【入門】データマイニングとは
データマイニングとはどのようなものなのでしょうか。入門編と言える基礎知識から見ていきましょう。
データの中からパターンや傾向を発見する技術のこと
データマイニングとは、膨大なデータから一定のパターン・傾向を見つける技術のことです。人工知能や統計学の手法を用いて、人間が見ただけではわからない知見を発見します。ビッグデータの活用が叫ばれるようになった昨今、その方法の1つとして注目されています。
特にマーケティングにおいて、よく売れる商品や売れ方のパターンを発見し、売上向上に活かすために使われることが多いです。
コンピュータの蓄積データを活用するために生まれた
データマイニングの概念が最初に登場したのは1960年代とされています。ビジネスにコンピュータが用いられ始めた時代です。まだ当時はコンピュータといえば計算するための装置というイメージでしたが、データの蓄積も可能なことから、その活用方法が模索されました。
続いて、データが積極的に活用されるようになったのが1980年代です。この頃にはさまざまなデータをコンピュータ上で管理し、業務に役立てるのが一般的になっていました。
そして、データマイニングが本格的に注目されるようになったのが1990年~2000年頃です。コンピュータの性能向上やデータウェアハウス活用の普及が原因で、データマイニングへの関心が高まりました。
その後はさまざまな分野のビジネスで利用されています。
データマイニングの役割
データマイニングを行うことで何が得られるのでしょうか。次はその役割を見ていきましょう。
1.データの分類・整理
データマイニングでできることの1つに、データの分類・整理があります。たとえば、商品の売上データであれば「10万円以上」「5万円以上10万円未満」「5万円未満」のように売上額で分類することが可能です。ほかにも、売上数量や純利益を基にした分類もできるでしょう。
単純なグループ分けであるため、深い意味はなさそうだと感じる人も多いでしょう。しかし、データマイニングで扱うデータの量は膨大です。膨大なデータが無秩序に並んでいるのと、グループ分けされているのでは、活用性に大きな差が生じます。
2.関連性の探索・発見
データマイニングでは、人間では気づかないデータ同士の関連性を見つけることもできます。
たとえば、マーケティング分野では「商品Aと商品Bは同時に購入されることが多い」といった関連性が重宝されます。この法則を見つけられれば、商品Aと商品Bをセットで売るなどして売上向上を狙えるからです。ほかにも「雨の日は商品Cが売れやすい」「商品Dは男性によく売れる」といった傾向を把握できれば、商品の取扱量を調節するなどして対策をとれます。
3.将来予測
データを分類したりデータ同士の関連性を発見したりすれば、その結果を将来の予測に役立てることが可能です。
たとえば、雨の日にある商品が売れやすいのなら、梅雨の時期には売上量が増えると予測できるでしょう。また、商品Aと商品Bが一緒に売れているのなら、発売予定である商品Bの類似商品もまた、商品Aと一緒に購入されやすいと考えられます。
このように、データを基にすれば、人間の勘や経験に頼った憶測よりも高精度な予測が実現します。
データマイニングのアプローチ方法
データマイニングにはいくつかのアプローチ方法があります。ここでは、代表的な2つを見ていきましょう。
1.機械学習
機械学習とは、コンピュータにデータを読み込ませて、その特徴や傾向を見つけ出すことです。根本的には、人間がデータを見ながらそれらの特徴・傾向を探すのとあまり変わりません。しかし、人間ではなくコンピュータにそれを代行させることで、人間が見落としがちな特徴・傾向も発見できます。
また、仮説を立てる必要がないのもメリットです。後述する統計分析では仮説を立ててそれを検証しますが、これでは仮説が思い浮かばなければ分析できません。それに対し、機械学習は人間にとって完全に盲点となる部分も見つけ出せるのが長所と言えます。
ただし、機械学習はデータの傾向・特徴を教えてくれる反面、その理由は明らかにしてくれません。データに一定の傾向・特徴が生じた原因は人間が判断する必要があります。
2.統計分析
統計分析は、回帰分析や主成分分析といった統計学的手法を用いてデータを分析することです。
先述したように、統計分析ではまず仮説を立ててそれを検証します。たとえば、「気温が高いほどジュースがよく売れるのではないか」という仮説を立てたとしましょう。この場合は回帰分析で気温とジュース販売数の関係性を分析すれば、仮説が正しいかどうかを明らかにできます。
どの分析手法を用いるかは、仮説や分析対象のデータによって変わってきます。したがって、実行するには統計分析に関するある程度の知識が必要です。
データマイニングツールとは
データマイニングはエクセルでも行えます。しかし、膨大なデータを扱わなければならないうえ、専門知識も要するため、本格的に実施するのには向いていません。
そこで有効なのがデータマイニングツールの活用です。データの収集から計算、分析結果の可視化など、データマイニングを支援する機能が豊富に備わっています。分析が効率化すれば、その分析結果の活用に専念する余裕が得られるため、利益の向上を期待できます。
もちろん、ツールを導入すればまったく知識がなくても使えるわけではありません。たとえば、豊富な統計分析機能が備わっていても、どの分析手法を選ぶべきかを判断するのは人間です。しかし、すべて自力で対処したり、外部の専門家に協力を仰いだりするよりはローコストな分析が実現するでしょう。
データマイニングの基礎を理解し、活用につなげよう!
データマイニングはデータから特徴や傾向を発見する技術です。コンピュータに蓄積したデータを有効活用する手法として登場しました。
データマイニングを行うと以下のことが実現します。
- ■データの分類・整理
- ■関連性の探索・発見
- ■将来予測
データマイニングには機械学習や統計分析など専門知識が必要ですが、データマイニングツールを使うと効率化します。
以上を踏まえ、データを上手に活用しましょう。