研究概要 |
本年度は,帰結指向型データマイニングに関する研究について,主に基本的な手法の充実と実際のデータベースへの適用について研究を進めた. 昨年度開発した頻出単調DNF式を抽出するアルゴリズムdnf_coverには,例えデータベースのサイズが小さくても,式の数が膨大になるという欠点があった.一方,頻出アイテム集合の場合,その数を減らす目的で,頻出閉アイテム集合と極大頻出閉アイテム集合が提案されている.特に,閉アイテム集合の抽出アルゴリズムとして,Zaki & HsiaoによるCHARMがある. そこで,本年度は,頻出アイテム集合の頻出閉アイテム集合への拡張と同じように,頻出単調DNF式を頻出閉単調DNF式にまで拡張した.そして,CHARMを利用した,頻出閉単調DNF式を抽出するアルゴリズムcdnf_coverを設計した.そして,感染症検査データベースにcdnf_coverを適用し,その有効性を確かめることができた. 次に,本年度は構造を用いたデータを扱うために,それらのデータを一階項に関数変数を導入した表現である二階項と捉え,その性質について研究を進めた. まず,二階項tと変数を含まない一階項sに対して,tに代入を適用することでsと一致させることができるか否かの二階マッチング問題について研究を進めた.一般の場合は二階マッチング問題はNP完全であることが知られているので,どのような制限がNP完全性に寄与しているかを明らかにした. さらに,二階項の一般化アルゴリズムについて研究を進めた.そして,一階項では最小一般化が存在するのに対し,二階項では最小一般化は存在しないこと,さらに,極小一般化を計算できる模倣なし一般化アルゴリズム,および,構造を保存する一般化アルゴリズムを開発した.
|