配分額 *注記 |
3,500千円 (直接経費: 3,500千円)
2005年度: 1,100千円 (直接経費: 1,100千円)
2004年度: 1,100千円 (直接経費: 1,100千円)
2003年度: 1,300千円 (直接経費: 1,300千円)
|
研究概要 |
本年度は,帰結指向型データマイニングに関する研究について,主に新しい頻出単調DNF式の抽出アルゴリズムの設計とデータベースへの適用,および,半構造データに対する手法について研究を進めた. 一昨年度に開発したアルゴリズムdnf_coverと昨年度開発したアルゴリズムcdnf_coverでは,最小支持度を満たさないアイテム集合および閉アイテム集合の中で最小項支持度を満たすものを種とし,それらを選言で結ぶことで頻出単調DNF式および頻出閉単調DNF式を抽出していた.したがって,dnf_coverとcdnf_coverは,最小項支持度を満たさないアイテム集合をすべて種として集めているわけではない. そこで本年度は,最小支持度ではなく最小項支持度をすべて探索することで種を抽出する.そのために,まず最小項支持度は最大重複度よりも大きいと仮定する.このような頻出単調DNF式を頻出疎重複単調DNF式という.そして,まず最小項支持度を満たす極大頻出アイテム集合を種として集め,次にそれらを選言で結ぶことで単調DNF式を抽出するアルゴリズムffo_dnfを開発した.極大頻出アイテム集合を用いることで,アルゴリズムffo_dnfが抽出する式は,すべての頻出疎重複単調DNF式を復元できる式,という意味で代表的な式となる.さらに,アルゴリズムdnf_cover,cdnf_cover,および,ffo_dnfを細菌感受性検査データに適用する事で,その有効性を検証した. 次に,本年度は半構造データを扱うために,それらを木として扱い,木のパスをすべて列挙するアルゴリズムLinearEnumGramを開発した.このLinearEnumGramは,後行順の深さ列で表現された木を一回走査することで,線形時間で木のqグラム,すなわち,位相付きの長さqのパスをすべて列挙することができる.
|