研究課題
本研究の目的は,与えられたグラフ集合から,統計的に有意に頻出する部分グラフをすべて発見する手法の構築である.平成26年度は,研究計画にしたがって,検定可能性を用いた多重検定補正法を設計し,有意な部分グラフを列挙するアルゴリズムの構築及び実装と,実データによる検証をおこなった.研究成果の具体的内容は,以下のとおりである.まず,検定可能性と呼ばれる統計的性質を導入し,検定可能部分グラフと頻出部分グラフの間の関係を明らかにした.次に,既存の部分グラフ発見アルゴリズムを利用することで,検定可能な部分グラフを列挙するアルゴリズムを構築・実装した.最後に,化合物などの実世界のベンチマークデータを用いて,構築したアルゴリズムの有効性を検証した.その結果,既存手法とくらべて1000倍程度の高速化を達成し,かつ誤発見の確率が適切に制御できることを確認した.さらに,計画段階では平成27年度に取り組む予定であった実効的検定数の導入についても研究を進め,構築したアルゴリズムに実効的検定数の計算を組み込むことに成功した.ベンチマークデータによる実験の結果,誤発見確率は適切に制御され,かつ検出力が向上することを確認した.これら構築したアルゴリズムを用いることで,例えば創薬において,化合物データベースから特定の活性をもつ化合物が共有している部分構造を見つけ出し,かつそれらの統計的有意性を担保することができる.
1: 当初の計画以上に進展している
平成26年度の研究計画で示した課題を全て達成し,かつ,平成27年度に取り組む予定であった課題である実効的検定数の導入についても達成した.
引き続き,統計的に有意な部分グラフを発見する手法の構築・洗練に取り組む.これまでの実験によって,現在までに構築したアルゴリズムによる誤発見の制御は保守的すぎ,重要な部分グラフを見逃している可能性があることがわかった.そこで,ランダム置換を用いた多重検定法を利用することで,誤発見確率の最適化を実現する.また,近年提案されているこのランダム置換法の高速化アルゴリズムの統合について研究を進める.さらに,バイオインフォマティクスやケモインフォマティクスなどの応用分野への適用可能性についても検討する.
すべて 2015
すべて 雑誌論文 (3件) (うち査読あり 3件、 謝辞記載あり 3件) 学会発表 (1件) (うち招待講演 1件)
Proceedings of the 2015 SIAM International Conference on Data Mining
巻: 未定 ページ: 未定
New Frontiers in Artificial Intelligence
Bioinformatics