データクレンジングとは
データクレンジングとは、データベースに保存されているデータの誤記や表記ゆれ、重複などを削除し、活用しやすいよう標準化することを意味します。具体的な例は以下のとおりです。
データクレンジングの例
- ●全角・半角文字の混在やスペースの有無
- ●法人名の表記(株式会社・(株)やアルファベット・カタカナ表記の違いなど)
- ●電話番号のハイフンの有無
- ●人名の異体字
- ●元号をはじめとした日付表記の違い
複数の部署が管理しているデータを集約し分析に活用しようとすると、同じ意味を表すのに表記が違うことで、自動処理時に認識されないケースが多く見受けられます。そこで利用用途に応じてルールを設け、データを適切な状態に修正・統合していく作業が必要になります。
データクレンジングは定期的な作業が求められるだけでなく、作業に膨大な時間がかかるため、負担に感じている担当者が多いようです。適切な手順を知り、できるだけ効率化していくことが求められます。
データクレンジングの方法・手法
データクレンジングの具体的な手法はサービスによって異なりますが、大まかな流れは決まっています。3ステップに分けて見ていきましょう。
1.データの取り込み
まず、データをデータベースに取り込みましょう。WordやExcel、XML、ログファイルなどさまざまな形式のファイルをデータベースに取り込みます。
別々の場所に保管されていると、データ同士の関係性が見えてきません。しかし1つのデータベースにまとめれば、これまで気づかなかったデータ同士の新たな関係を把握できます。このとき、取り込むデータの範囲をあらかじめ決めておきましょう。関連性のないデータや古い情報まで集めても、かえって無駄な作業が増えてしまうためです。
2.クレンジングの実行
次はデータのクレンジングを行います。ただし、利用目的やデータの種類によってデータクレンジングの内容は異なります。そのため、要件に応じてクレンジングのためのルールを定義しなければなりません。例えば電話番号を整理したいのならハイフンの有無を統一、表記ゆれを直したいのなら表記の統一といった形で処理内容を定めましょう。
なおデータクレンジングは知識や技術が求められる作業でないため、量が少なければエクセルなどを用いて人の手で整形・整理できます。しかし、ミス防止や効率化の観点から、データクレンジングツールやRPAツールなどを活用するのがよいでしょう。
3.名寄せ
クレンジングを終えても、まだデータは完全な状態にはありません。重複するデータを検出し統合する「名寄せ作業」が必要です。
例えば、同一人物が異体字のせいで2人分のデータとして登録されていた場合を考えましょう。このとき、データクレンジングによって異体字を統一しただけでは不十分です。2人分のデータを統合し、1人分にする必要があります。
しかし異体字を統一した結果姓名が同一になったからといって、必ずしも同一人物とは断定できません。そこで、関連情報を基に同一人物か否かを判断します。なお関連情報には、当該人物の電話番号・メールアドレス・居住地・勤務先などがあげられます。
データクレンジングにおける注意点
データクレンジングを終えたら、必ず目視で確認作業をしましょう。元のデータの品質が悪ければ、ツールでは気付けないデータの重複があるかもしれません。
またデータクレンジングは、1度行って終わりではありません。せっかく整理したデータが再び乱れないように定期的に管理する必要があります。データの増加や事業拡大のタイミングを見計らって再びクレンジング作業を実行しましょう。さらにデータ入力時のルールを策定し社内に周知しておけば、将来的にクレンジング作業を減らせます。
データクレンジングの方法・手法を知り、正しく運用しよう!
データクレンジングはデータを適切な範囲で収集し、無駄なく実行することが重要です。予算と効果を照らし合わせながら、データクレンジングツールやRPAツールなどを活用してください。