データマイニングの目的
データマイニングとは、統計学や人工知能に基づく、さまざまなデータ分析手法を用いてデータから知識を取り出すことです。これは何のために行われるのでしょうか。
予測と分析による有益情報の獲得
データマイニングの目的は、大量のデータを分析して知見を獲得し、未来予測に活用することです。データをセグメントに分類し、セグメント間に潜在する関連性を見出します。こうして得られた知見は、マーケティングなどに役立てられます。
この例として、ビールとおむつの話があります。データマイニングの結果、両者は一緒に購入される機会が多いことが判明したという話です。この分析結果を活かし、ビールとおむつを並べて陳列したところ、売上が伸びたと言われています。
この話はたとえ話であって実話ではないようですが、データマイニングの目的を端的に表しています。人が考えただけでは分からないデータ同士の関係性を分析手法で明らかにできれば、高度なマーケティングが実現するのです。
設備のメンテナンスなどに活かせる
データマイニングはマーケティング以外にも、業務の効率化やリスク回避に活用されています。
たとえば、製造業においては製造設備のメンテナンス効率化に利用されています。故障が生じやすいタイミングや箇所をデータマイニングで明らかにできれば、定期的メンテナンスの頻度を最小限に抑えることが可能です。
また、製造設備の状態を監視し、そのデータを分析すれば不具合が生じる前兆を検知できます。人間の勘や経験に頼らなくてよい分、故障を始めとした不測の事態に伴う被害を軽減できます。
データマイニングに必要な準備
データマイニングを行うには何を準備すればよいのでしょうか。順を追って見ていきましょう。
- 目的の設定
目的によって扱うべきデータと適用するデータ分析手法が変わってきます。「商品Aの売上を伸ばしたい」など具体的に設定しましょう。
- データ収集
データマイニングに必要なデータを収集します。商品の売上増加を目指すのなら、その売上数量や購入者層、同時に購入されている商品、地域別売上などが対象となるでしょう。
データ収集にはデータウェアハウスが使われることが多いです。データウェアハウスには登録データ以外に、削除や更新される前のデータも含まれます。それらも含めて分析の対象としています。
- データ加工
収集したデータは形式がバラバラなうえ、そのままではデータマイニングに活用できないことが多いです。データ形式の統一や正規化を始めとした処理を施し、データを分析に使えるように加工しましょう。
- 手法の選定
目的や対象のデータに合わせて分析方法を選びます。1度で有益な知見が得られるとは限らないため、いくつかの手法で繰り返し分析しましょう。
データマイニングの具体的な分析方法
データマイニングにおける分析では、統計分析や人工知能などが用いられます。統計分析は、仮説を立て、それが正しいか否かを統計的手法を用いて判定することをいいます。一方、人工知能の機械学習は事前の仮説を必要とせず、コンピュータが自ら学習し、データ同士の関係性などを見出します。
では、データマイニングに用いられる分析方法には具体的にどのようなものがあるのでしょうか。代表的なものを3つ紹介します。
ABC分析:3段階でランク付けする手法
ABC分析は、製品を重要度が高い順にA・B・Cとランク付けする手法です。基本的には、売れ筋商品とそうでない商品を選別し、売れ筋商品にリソースを注ぐことで利益増加を目指すのに利用されます。
1つ簡単な例を見てみましょう。
商品 |
売上 |
構成比 |
ランク |
バラ |
45,000円 |
45% |
A |
コスモス |
35,000円 |
35% |
A |
ヒマワリ |
15,000円 |
15% |
B |
パンジー |
5,000円 |
5% |
C |
合計 |
100,000円 |
|
|
上記は売上順に商品を並べ、ランク分けしたものです。売上の構成比が30%以上をA、30%未満10%以上をB、10%未満をCと定義しています。こうしてランク分けすれば、Aの仕入れを増やす、Cの取扱いを減らすなどの施策を検討できます。
また、売上はなく販売数や利益の順に並べて分析することも可能です。さまざまな観点から分析しましょう。
アソシエーション分析:商品の関係性に注目する手法
アソシエーション分析は、顧客が同時に購入する商品同士の関係性を明らかにする分析手法です。信頼度・支持度・リフト値の3つの指標が用いられます。商品AとBの関連性を調べる場合を例に、それぞれの指標を解説します。
- 信頼度
- 商品Aの購入者のうち、何%の購入者が商品Bを購入したかを示す指標です。
- 支持度
- 商品Aと同時に商品Bも購入する者が、購入者全体の何%を占めるかを示す指標です。
- リフト値
- 信頼度(商品Aと同時に商品Bも購入する者が商品Aの購入者に占める割合)が、商品Bの購入者が購入者全体に占める割合の何倍かを示す数値です。
上記それぞれの数値が高いほど、「商品Aの購入者は商品Bを同時に買うだろう」という予測が成立します。これらの数値を膨大な商品購買データについて算出し、関連性の高い(数値が高い)商品を見つけ出すことで売上増加を目指せます。
クラスター分析:いくつかの集団に分ける手法
クラスター分析は分析対象を集団に分ける分析手法で、階層クラスター分析と非階層クラスター分析に分類されます。
- 【非階層クラスター分析】
クラスター数をあらかじめ決めておき、そこにデータをグループ分けする方法です。異なるクラスターに分類されたデータ同士の違いを明確にするのが目的です。得られる結果がデータ量に関係なく安定しているため、分析対象のデータ数が多い場合に向いています。
- 【階層クラスター分析】
階層クラスター分析では、クラスターの成長過程を線で示した樹形図が作成されます。樹形図の末端に近い位置で結合したクラスターほど、関係性が強いと言えます。分析結果が図示されるため、直感的にデータ同士の関係性を把握しやすいのがメリットです。
ただし、分析対象のデータが多いと計算量が膨大になり、実行不可能になります。また、分析結果が複雑になり解釈も困難です。
データマイニングを活用して生産性の向上を!
データマイニングはデータから新たな知識を得るために行われます。このために統計学や人工知能などを背景とした分析手法が使われます。マーケティングに活用されることが多いです。
代表的な手法は以下のとおりです。
- ABC分析
- 3段階でランク分けする
- アソシエーション分析
- 商品の関係性を探る
- クラスター分析
- 対象を集団に分ける
以上を踏まえデータマイニングを活用し、生産性を高めましょう。