SAS High-Performance Data Miningとは
あらゆるデータを用いた高速・高精度の分析を実現するシステムです。テキスト・行列データなどデータの構造化・非構造化を問わずあらゆるデータを用いた分析を行います。スピーディーな意思決定や極めて難しいビジネス上の課題解決に活用でき、競争優位性の獲得を実現可能です。
SAS High-Performance Data Miningでできること
【変数の削減処理・統計出力】
VARステートメントによる変数指定の統計出力や、CLASSステートメントによるグルーピングされた統計量の算出など、多彩な形で統計の出力が可能です。単純な行列データは、冗長な行列を排除し分かりやすいデータを出力します。
【自動標準化】
入力した値やターゲットとなる変数を自動的に標準化し、分かりやすいデータとして整備できます。
【活性化関数を用いた処理】
非表示・出力するデータを、活性化関数を用いて正確に分類します。
【ランダムフォレスト】
ランダムフォレストの機能を内包しており、複数の決定木を平行に学習してターゲットを予測できます。ノード分岐のための変数はランダムに選択していく仕組みで、非構造化のテキストデータ入力にも対応するため、高精度な予測を実現します。
【ベイジアンネットワーク】
ベイジアンネットワークによる分析が可能で、複数ノード間の依存関係を可視化します。対応するベイジアンネットワークはナイーブ、TAN、BAN、親子ベイジアン・ネットワーク、マルコフ・ブランケットなど多数です。
【クラスタリング】
1つ、または複数の変数から算出された距離に基づいたクラスター分析を実行します。
【データ要約】
大規模な統計であっても迅速に処理し、探索・集計を行ってデータを要約します。平均や最小・最大、分散や中心的傾向の指標を算出可能です。
【相関分析】
行・列で構成されたビッグデータを解析し、相関関係の分析・計算ができます。
【サンプリング】
シンプル・ランダムサンプリングや、層別・オーバー・アンダーサンプリングを実行します。またサンプリング後、出力データのセットやパフォーマンステーブル、度数分布表をそれぞれ作成します。
【データの補完】
指定された値を用いて、高精度な数値変数補完を実行します。欠損値が存在する場合、平均値・疑似中央値または最小~最大値間のランダムな値で置き換えが可能です。
SAS High-Performance Data Miningで解決する課題
【分析処理にかかる時間を短くしたい】
本システムのハイパフォーマンスなデータ処理により、分析処理にかかる時間を大幅に短縮できます。精度も高いため、データをもとにしたビジネスの意思決定を実現可能です。
【精度の高い意思決定を実現したい】
本システムのデータマイニングは一部のデータをサンプリングするのではなく、構造化・非構造化にかかわらずすべてのデータを参照し、多くの変数を用いた分析を行います。より多くの回数の反復実行が可能なため、高精度での意思決定の実現をサポートします。
【テキストデータを用いた予測を強化したい】
本システムではハイパフォーマンスなテキストマイニングが可能なため、テキストデータの中から隠れた相関性を見つけ出し、ビジネスに活用できるレベルの予測強化を実現します。