本研究の目的は,与えられたグラフ集合に共通して出現する部分グラフのなかで,統計的に有意に頻出する部分グラフを効率的に発見する手法の構築である.本年度は,昨年度までに得た手法における偽陽性割合の制御が保守的過ぎるという問題をランダム置換を用いた多重検定法によって解決し,偽陽性の割合を任意の値に制御することのできる効率的な手法を構築した. 研究成果の具体的内容は以下の通りである.まず,WestfallとYoungが提案したランダム置換多重検定法を部分グラフマイニングのアルゴリズムに導入した.部分グラフの統計的仮説検定と,既存の頻出部分グラフ発見アルゴリズムを融合することで,部分グラフを列挙していく各時点で,最終的な偽陽性割合が推定できることを理論的に示し,最適な制御を可能にした.これによって,既存の頻出部分グラフ発見アルゴリズムの効率性を損なうことなく,高速かつ省メモリに統計的に有意な部分グラフを発見する手法の構築に成功した.これは,グラフマイニングだけでなく,アイテム集合や系列,木パターンなど,パターンマイニング一般において用いることのできる手法であるため,その汎用性は高い.化合物やタンパクなどの,部分グラフマイニングでよく用いられている実世界のベンチマークデータを用いて構築した手法の効率性を検証した.既存手法より100倍から1000倍程度の高速化を達成し,かつ偽陽性の割合が適切に制御されていることを確認した.
|