本研究では、透明性を保ちながら、この二値化誤差からくる限界を克服するデータマイニングシステムの設計とその理論的解析を行う。このようなデータマイニングシステムは要望されてはいるが、現実化は難しく、独創的な新しいアイデアが必要とされていた。 初年度の具体的な成果としては、柔軟な決定木の構築に用いる階層ルールのアルゴリズムの高速化と高次元化である。 高次元(多属性)階層化ルールの実現にあたっては、直接的なモデル化を行うと、近似計算すら困難な問題に定式化される。この計算困難性を避けるために計算理論的な考察を行い、それに従ったモデル化とアルゴリズム設計を行う必要性がある。1次元手法の直接的な拡張は多項式時間アルゴリズムにならないという問題点があったが、本研究ではグラフアルゴリズムを用いて任意の次元における高次元ルールの構築を行い、世界に先駆けて発表した(国際会議COCOONにおいて行った発表)事が大きな成果である。 また、階層化ルールを用いた決定木のプロトタイプ実装を行い、実験による評価を開始した。さらにインターネットにおける知識抽出の実用的なモデル化の側面から、クラスタリングのアルゴリズムの理論的解析及び実用的定式化の研究を行った。
|