研究概要 |
木,グラフ,超グラフといった離散構造における類似度・非類似度の計算のうち,本年度は,主に木の非類似度計算とその応用についての研究を進めた. 木構造の非類似度として最も広く用いられている木の編集距離は,多項式時間で計算できるが,ノード数nの木に対して計算に0(n^3)時間かかり,決して高速とは言えない.そこで本年度は,新たに木の局所情報の頻度による非類似度である局所頻度距離を定式化した.ここで,木の局所情報とは,各ノードの子と兄弟のラベル情報の組合せである.そして,局所頻度距離が編集距離の定数倍下界を与えることを示すと共に,局所頻度距離を計算する線形時間アルゴリズムを開発した.また,そのアルゴリズムを実装することで,糖鎖データやランダム木データに適用し,その有効性を検証した. ただし,この局所頻度距離は,反射性を満たさない,すなわち,局所頻度距離が0だからといって木が同型とは限らない,という欠点がある.そのため,局所頻度距離は木の編集距離の上界を与えることができない.反射性を満たし,木の編集距離の下界と上界を与え,かつ,木の編集距離よりも高速に計算できる距離を定式化することは今後の課題である. また,本年度は,インフルエンザウイルスの地域間遷移,および,薬剤感受性検査データから得られるエピソードといった,有意性がある有向グラフを出力するマイニング技術を発展させた.今後は,これらの有向グラフの類似度・非類似度の計算方法を確立することが課題である.
|