『SOFIT Super REALISM』 は、超高速データ処理〔読込・結合・マッチング・検索・集計・計算・出力〕を
カンタンに実現できるビッグデータ処理システムです。
世界最高速レベルのデータ処理速度があり、ビッグデータ処理技術分類の、
超高速バッチ処理&アドホック処理が実現します。
基本コンセプトはノン・プログラミングとして開発され、Excel の基本操作がスキルがあれば、
2時間程の講習を受けるだけで、すぐご利用いただくことが可能です。
データ活用における課題解決
長年のシステム運用で蓄積されたデータ、IoTで取得された新たなデータ、
あるいは社外のオープンデータなど
様々な場所に点在するデータを統合することでデータ活用ができます。
ところが、
・長年の運用で、実際のデータ(テーブル)とテーブル仕様書が一致していない
・アプリケーションから見えるデータと、実際のデータには差がある
など、テーブル仕様書を基にデータ統合を行おうとしても上手くいきません。
その解決策として
「データ収集」でデータ形式の統一や文字コードの変換を行った後
REALISMを使って、
1.「データ確認:データ概観」で現在のテーブルにどのようなデータが存在するか確認
2.「データ整備」で、仕様書に基づいたデータの整備/加工を行う
これを繰り返し、データ(テーブル)とテーブル仕様書を一致させます。
これにより、データ統合ができ、「データ活用」に取り組むことができます。
データの確認と整備を繰り返す工程が「データ準備」であり、全行程の6~8割を占めていますが、REALISMによってデータ準備期間の短縮ができます。
データマイニングはテーブル確認から
データマイニングするにしてもデータが汚れていたり、空欄だらけではそこから得られるものは役に立ちません。
まずは、項目ごとの内容、データの概観(describe、基本統計量)を調べることが重要になります。
具体的には、各テーブル各項目に格納されている値 件数 桁数を調べることです。
項目の最小値、最大値を調べることで、項目ごとの値の範囲(データの散らばり)を知ることができます。
値ごとの最小件数、最大件数を調べることで、項目ごとの特性(最頻値)を知ることができます。
値ごとの最小桁数、最大桁数を調べることで、イレギュラーデータの有無やデータの容量範囲を知ることができます。
REALISMを利用することで、短期間でデータの概観を調べることができ、どのようにデータマイニングする必要があるのかを知ることができます。