研究概要 |
情報の集合からルール、傾向やパターンを抽出する技術は近年データマイニングと呼ばれ多くの研究が進められている。代表者は、種々の表形式データに対してラフ集合の概念を用いた解析法を提案し、処理支援ツールの構築を進めている。その際、従来からの手法である多変量解析との接点や違いも十分検討している。 例えば4人分の身長と体重のデータ(162(cm),64.3(kg))、(162,64.5)、(164,65.8)、(175,72.8)において、最小2乗法による回帰直線を求めると『体重=0.6445×身長-3.982』の関係式を得る。一方、ラフの視点から見ると例えば、『身長が160(cm)代ならば体重は(64か65)(kg)である』といった含意式を抽出できる。共にデータを特徴付ける重要な情報と考えられる。ラフ集合も多変量解析も互いの利点で相互の不足分を補うことになると考える。 実際の支援ツールはC言語とProlog言語を利用して記述しており、(A)集合の定義可能性判定ツール、(B)可能同値関係抽出ツール、(C)属性間における依存性判定ツール、(D)被覆度や正確度計算ツール、(E)ルール抽出ツールなどを実現している。特に、ルール抽出では識別関数の手法を導入し、条件部が最も簡単である極小ルールの抽出も可能にしている。これら(A)から(E)までのツールは決定情報(確定した値)だけでなく非決定情報(特定はできないが正しい値が中に入っていることがわかっている値の集合)も処理できる。アンケートで項目に回答がない場合などは非決定情報と見ることができるので、そのような場合でも特徴あるルールの抽出が可能になると考える。
|