テキストマイニングとは
企業のもつデータを経営活動に活かせることから、テキストマイニングが注目されています。ここでは、テキストマイニングの概要について見ていきましょう。
膨大な量のテキストから有益な情報を探すこと
テキストマイニングとは、「自然言語処理」と呼ばれる解析手法を用いて、企業にとって有益な情報を抽出することです。自然言語処理は、コンピュータが自然言語(日常生活において使われている言葉)を処理することを指します。
しかしテキストマイニングは、文章を単語や助詞などの文節で区切り解析を行う手法であるため、実は日本語には不向きといわれています。なぜなら日本語は、英語のように名詞や助動詞の間に「スペース」がなく、単語ごとの切り分けが難しい言語だからです。そのうえ、同音異義語や表記ゆれがあるという特徴があります。
そのためテキストマイニングは、全体像や特徴の把握を目的とした大まかな分析との相性がよいでしょう。また、全体像の場合は単語の出現頻度を、特徴把握の場合は単語の種類の増加数などを解析します。これらは一定の条件下で抽出しているため、分析精度は高くないことに留意してください。
テキストマイニングはデータマイニングの一種
テキストマイニングは、文字列を単語ごとに分解し、有益な情報を抽出します。例えば、SNSや記述式アンケートをテキストマイニングすることで商品が売れない理由などがわかります。
一方データマイニングは、膨大なデータの中から有益な情報を探す手法の総称であり、統計学や人工知能などの技術を利用する手法です。店舗の売上情報をデータマイニングすると、時間帯ごとの商品が売れる相関関係などを分析できます。
テキストマイニングは文字列、それに対してデータマイニングはすべてのデータがマイニングの対象です。データマイニングはテキストマイニングよりも対象範囲が広く、テキストマイニングの上位区分といえます。
▼以下の記事では、データマイニングの基礎知識について詳しく解説しています。
関連記事
watch_later
2022.01.28
データマイニングとは?基本の考え方から分析手法、仕組みを解説!
続きを読む ≫
主な活用シーン
テキストマイニングは、記述式のアンケートやコールセンター内における顧客とオペレーターの対応記録などに活用されます。さらにテキストマイニングの対象となるテキストには、以下のようなものがあります。
- ●SNSやWebサイトの書き込み
- ●音声データをテキスト化したもの
- ●作業日報・報告書
これらには市場動向や消費者意識など企業にとって有益な情報が含まれており、製品開発やサービス改善に活かすためにも、経営上非常に重要なものです。
テキストマイニングの目的
では、テキストマイニングはどのような目的で利用されるのでしょうか。詳しく解説します。
- 1.顧客のニーズを発見する
- 問い合わせ内容やアンケートをテキストマイニングすることで、季節や年齢、意見の種類など多面的な視点で顧客の声を知り、ニーズを明確化できる。売れない理由といった「なぜ」の原因究明に役立てられる。
- 2.業務の課題に対する改善策を見つける
- 営業日報や作業報告書、レポートなどをテキストマイニングすれば、抽出したデータはナレッジとして共有できる。業務の問題点を見える化でき、属人化している業務であれば業務の平準化が、営業成績が優秀な従業員のナレッジがあれば、スキルの平準化が可能になる。
- 3.ビッグデータを分析して将来を予測する
- SNSのコメントは膨大な有益情報を含むため、ビッグデータとして活用できる。例えばコメントを解析し、インフルエンザの流行を予測できればマスクの仕入量を増やせる。日々の業務にテキストマイニングを活用し、仕入量のコントロールなどの企業運営が可能。
テキストマイニングの手法
テキストマイニングには3つの手法があります。それぞれの手法について解説します。
センチメント分析
テキストマイニングの代表的な手法であり、顧客の感情を分析します。顧客が商品やサービスを利用した際にどんな感情をもったのかを、「肯定的」「否定的」「中立的」の3つで評価するのが基本です。
しかし、年代によっては異なる感情を意味する単語もあります。例えば「やばい」は代表的な単語で、若い世代では肯定的な意味をもちますが、年配世代では否定的な意味で利用されるケースが多いでしょう。このように、曖昧な意味をもつ単語などは、対象によっては解釈が異なる場合もあります。
対応分析
コレスポンデンス分析とも呼ばれます。設問をかけあわせて作成する「クロス集計」や、編集・集計を行う前の「ローデータ」を散布図で表現する分析手法です。
アンケートなどはクロス集計を用いることが多く、項目が多岐に渡ると結果を把握しづらくなることがあります。そこで散布図にすると項目の関係性が可視化され、対象データを比較しやすくなるのです。対応分析は企画書やブランドのイメージ分析に活用されることが多いでしょう。
主成分分析
ビッグデータなど、膨大なデータを分析する際に活用される手法です。
膨大なデータには多くのデータ項目が存在するため、それが分析の妨げとなる場合があります。そこで多くのデータ項目を少数の項目に置き換えることで、データ分析をしやすくするのです。
しかし主成分分析はデータ分析しやすくなりますが、一部のデータを切り捨てることになります。したがって、すべての情報を見ることはできません。切り捨てた分のデータに重要なデータが含まれることもあるため、慎重な判断が必要です。
テキストマイニングのやり方
テキストマイニングを進めるにあたり、ここでは具体的なやり方について説明します。
- 1.データを集める
- SNSやWebページなどからAPIを取得しデータを集める。
- 2.収集したデータの前処理を行う
- 先述したとおり日本語は文節の区切りが難しいため、品詞で分解、単語の修正、不要な文字の削除などの前処理を行う。
- 3.非構造化データから構造化データに変換
- 分析・可視化しやすくするために構造化データに変換する。
- 4.分析
- 分析結果を、グラフやカラム・チャートなどダッシュボードで可視化。頻度や相関値、トレンドや時系列などさまざまなポイントで分析する。
テキストマイニングの活用ポイント
テキストマイニングを効果的に活用するには、どのような点に注意するべきでしょうか。活用時に気をつけるべき2つのポイントを見ていきましょう。
分析結果をもとにPDCAを回す
テキストマイニングの活用を検討している場合、改善を図りたい課題や問題があるはずです。「データ活用したい」「何か有益な情報を得られるかも」など、目的もなくテキストマイニングを行ってもデータを活用できません。
まずテキストマイニングによってどのような課題を解決したいのか、目的の明確化を図ってください。そして分析結果をもとに問題点の整理を行い、具体的な解決方法を決めましょう。
その分析結果と解決方法を共有し、どのような変化・効果があったのかを評価をします。期待する効果や変化が得られない場合は、あらためて解決方法を見直しましょう。このように繰り返しPDCAサイクルを回すことで、目標達成に近づくことができます。
テキストマイニングによって得た結果を経営に活かすには、結果を共有して組織ぐるみで解決に臨む姿勢が大切です。
精度を高めるために辞書を作成する
単語や文節ごとに区切ってマイニングするため、テキストマイニングでは単語判定が重要です。
1つに数とおりの読み方や意味をもつ漢字は、辞書にその情報を集約することでテキストマイニングの精度をあげられます。また動詞1つに対して、現在形や過去形、未来形などを辞書に登録する必要があり、さらに辞書は定期的に更新しなければいけません。
そして新しい言葉や商品、サービスが次々と誕生し、それらの情報を登録して辞書を更新していくことでテキストマイニングの最適化が図れます。なお、テキストマイニングツールを利用することで効率的に辞書を作成でき、分析精度の向上が可能です。辞書に登録する単語の語彙力がテキストマイニングの精度を高めるポイントになるでしょう。
▼カテゴリー数・製品数業界最大級のITトレンドでは、さまざまなテキストマイニングツールを取り扱っています。以下の記事では、辞書機能が搭載されたテキストマイニングツールも紹介していますので、ご覧ください。
関連記事
watch_later
2022.02.24
テキストマイニングツール比較12選!選び方や注意点も解説
続きを読む ≫
テキストマイニングを有効活用して業務を効率化しましょう!
テキストマイニングは文字列から有益な情報を抽出するデータマイニングの1種です。アンケート集計やコールセンターの対応ログなど社内外のさまざまな場面において、顧客ニーズや課題点の発見、将来の予測などに活用されます。
辞書を更新したり、PDCAを回したりすることで効果的に活用できるので、テキストマイニングツール導入を検討し、自社の製品開発やサービズ改善などに役立ててください。