エクセルでテキストマイニングを行う方法
まずは、どのようにしてエクセルでテキストマイニングを行うのか見ていきましょう。
- 1.文章を単語化する(形態要素分解)
- 2.単語を集計する
- 3.ワードクラウドを作る
では、それぞれの詳細を説明します。
1.文章を単語化する
専用のシステムを使わずにエクセルを使う場合は、テキストマイニングを行う前に準備をしなければなりません。
エクセルでは文章をそのまま分析できず、分析対象となる文章を一つひとつの単語に分解していく必要があります。このように文章を単語で分解していく方法が「形態要素分析」です。
単語に分解する方法としては、MeCabやJanomeなどの形態素解析エンジンを用いた「分かち書き(単語の区切りに空白を入れる)」などが挙げられます。
単語レベルで分解することで、単語の頻出度の計測が可能です。なお、「サーバー」と「サーバ」といったように、表記方法が異なる「表記ゆれ」を修正すると、より正確な集計を行えます。
2.単語を集計する
文章を単語化した後は、その単語がどれくらい登場するのかを集計します。エクセルでテキストマイニングを行う場合は、単語を指定して「COUNTIF関数」を使います。
しかし、単語の数などデータ量が多いときや条件が複雑な場合は、エクセルの関数では上手く集計できないことがあります。例えば、アンケートの感想であれば人によって表現の仕方は異なるでしょう。
このような場合は、エクセルと連動して利用できる集計用のソフトウェアを使うと効率的です。無料で使えるソフトも多くあるため、活用してみましょう。
3.ワードクラウドを作る
ワードクラウドとは、文章中で対象となる単語の出現頻度の高さを、文字の大きさや色に反映させて図示する方法です。このワードクラウドを使うことで、どの単語が頻出なのかを視覚的に把握しやすくなるでしょう。
ワードクラウドをエクセルで作る場合は、単語の集計と同様にフリーのソフトかアドインを利用します。また、プログラミングに自信がある人は、自分で作ってみるのも良いでしょう。対象となる単語が多いほど、見ごたえのあるワードクラウドができます。
テキストマイニングで使うエクセルの関数
エクセルでテキストマイニングを実施するなら、関数を使って手作業を省くことが必要です。
主に使う関数はこの3つです。
では、具体的な使用例を見ていきましょう。
COUNTIF関数
「=COUNTIF (範囲, 検索条件)」
COUNTIF関数とは、キーワードなどの条件を設定し、その個数をカウントできる関数です。そのため、アンケートなどの単一回答を集計する際に使われます。COUNTIF関数は範囲と検索条件を指定するのが決まりです。
もし、集計したい回答が複数ある場合は、範囲のセルに「$」をつけると、範囲を固定して検索ができます。固定しなければ、関数のセルをコピーして別セルに貼り付けたときに、範囲がズレてしまうでしょう。
例えば、「C1からC99」までの範囲内に出現する単語を検索するときは、以下のような式になります。
- 「=COUNTIF($C$1:$C$99, "単語A")」
- 「=COUNTIF($C$1:$C$99, "単語B")」
SUM関数
「=SUM(引数)」
SUM関数とは、指定した範囲の個数を合計する関数のことです。もっとも基本的な関数でもあるため、使ったことがある人も多いでしょう。SUM関数の条件は、「=SUM(引数)」です。
例えば、先程のCOUNTIF関数をD列に入力していれば、その合計を算出するときの式は以下のようになります。
SUM関数を実施する際は、COUNTIF関数などでカウントした個数を合計する際に使うことが多いです。このように、ほかの関数と組み合わせることも少なくありません。
INDEX関数
「=INDEX(範囲, 行番号, 列番号, 領域番号)」
INDEX関数とは、COUNTIF関数やSUM関数と違い、指定した位置のセルの値を表示する関数です。そのため、単独で使用することは少なくSUM関数などと一緒に使うことが多いです。
INDEX関数は、選択した範囲の中の上から何行目の何列目に該当するものを結果として返します。もし複数の範囲を選択している場合は、1つめの範囲が「1」、2つめの範囲が「2」となります。
SUM関数と一緒に使用する場合の関数は以下のようになる場合が多いです。
- 「=SUM(セル:INDEX(範囲, 行番号, 列番号, 領域番号))」
- (例:「=SUM(B1:INDEX((A2:B5), 5, 2))」)
この場合は、指定したセルからINDEX関数で指定した範囲までの合計値を求められます。
効果的なテキストマイニングのやり方
エクセルを活用すれば、費用をかけずにテキストマイニングを実施できます。しかし、関数を入力する手間がかかるだけでなく、テキストマイニングの精度や実施できる範囲が限られます。
このようにエクセルでテキストマイニングを行うのは限界があるため、精度を求めるのであれば専用ツールを使うのがおすすめです。現在では無料で利用できるテキストマイニングツールも登場しています。
有料版のツールと比較すると機能制限はありますが、ワードクラウドの作成や単語の出現頻度などは簡単に集計できるでしょう。
関連記事
エクセルやツールを活用してテキストマイニングを行おう
テキストマイニングをエクセルで行う場合、まずは文章を単語に分け、単語を集計します。必要に応じてワードクラウドを作成すると、単語の出現頻度を把握しやすくなるでしょう。また、テキストマイニングで使用する主な関数は以下の3つです。
- ■COUNTIF関数
- ■SUM関数
- ■INDEX関数
また、精度を求めるのであれば専用ツールを使ってください。エクセルやツールを活用してテキストマイニングを実施しましょう。