2008 Fiscal Year Annual Research Report
多様なデータも処理するラフデータマイニングツールの構築と応用
Project/Area Number |
18500214
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
酒井 浩 Kyushu Institute of Technology, 工学研究院, 教授 (60201513)
|
Keywords | ラフ集合 / 相関ルール / データ解析 / 非決定情報 / 不完全情報 / データマイニング / 多変量解析 / アプリオリアルゴリズム |
Research Abstract |
本研究の目的は、ラフ集合の特長を生かしてデータマイニングツールを構築し、ツールを多様な表データ(広くはデータベース)に適用し、価値ある情報(具体的には相関ルールと呼ばれる含意式「ある条件が成立する場合、特定の状況が恒常的に起きる」)の獲得支援を行い、従来の統計解析の幅を広げることである。 本年度は特に、表における離散値データの処理、情報の欠落・不完全性がある表データの処理において重要な成果を得た。情報の不完全性を処理するために起こり得るすべての場合を列挙し、それら全場合の動向によって相関ルールを取り出す手法は従来から知られているが、起こり得る場合の数は指数関数的に増加するので処理時間の面において問題があった。我々は、ラフ集合の粒状計算の枠組みとアプリオリアルゴリズムの拡張を行うことにより、起こり得る場合の数に依存しないアルゴリズムを提案し、この問題に対する1つの解決法を示した。また、そのプログラムのための実行環境の整備も行った。 実際に、UCIデータレポジトリにおける肝炎のデータHepatitis.csv(対象数155、属性数20、欠落値167)については起こり得る場合の数が10の100乗を超えたが、含意式[MALAISE,2]=〉[Class,2]や[SPIDERS,2]=〉[Class,2]は起こり得る全ての場合において、サポート値が0.5以上かつアキュラシー値が0,9以上を満たすルールとして取り出すことができた。また、乳がんデータMammographic.csv(対象数961、属性数6、欠落値160)では起こり得る場合の数が10の70乗を超えたが、こちらからも瞬時にルールの取り出しができた。
|