2016 Fiscal Year Research-status Report
統計的に有意な部分構造を発見する巨大グラフマイニング手法の研究
Project/Area Number |
16K16115
|
Research Institution | Osaka University |
Principal Investigator |
杉山 麿人 大阪大学, 産業科学研究所, 助教 (10733876)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | グラフ / 木 / グラフマイニング / 統計的有意性 / 多重検定 / 検定可能性 / パターン |
Outline of Annual Research Achievements |
本研究の目的は,巨大グラフに統計的に有意に現れる部分グラフを効率的に列挙する手法の構築である. 平成28年度は,プロトタイプの設計及び実装と,実データによる検証をおこなった.具体的には,グラフのサブクラスとしてXMLに代表される木構造データに着目し,巨大な木において統計的に有意に現れている部分木パターンを発見する手法の構築に取り組んだ.一般に,巨大グラフからの部分グラフ発見においては,各部分グラフの出現回数と親子関係の間の反単調性が成り立たない.したがって,これまでに提案されている統計的に有意なパターンを発見する手法は,必ず反単調性を利用して計算の効率化を実現しているため,巨大グラフに対してはこれらのアプローチがそのまま適用できない.これに対して,グラフが木構造を持つときは,反単調性が成り立つため,この問題を回避することができる.さらに,木からの部分木パターン発見においては,効率的な列挙アルゴリズムが多く研究されている. そこで本年度は,代表的なアルゴリズムFREQTを利用し,そこに検定可能性を用いた多重検定補正法を導入することで,検定可能な部分木パターンを列挙するアルゴリズムを構築及び実装した.実世界のXMLデータを用いて,構築したアルゴリズムの有効性を検証した結果,偽陽性の割合を制御しつつ,ベースラインとなるBonferroni補正を用いた手法よりも検出力を増加させることに成功した.しかし,実行時間が増大していまう,という結果を得た.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
統計的な観点からの改善には成功し,本年度の目的を達成したが,実行時間は改善の余地がある.
|
Strategy for Future Research Activity |
来年度は,まず本年度で構築したアルゴリズムを改良して,実行時間を短縮する.これまでに構築した手法では,パターンの列挙と検定可能性の判定を独立におこなっているが,これらを融合して,パターンを列挙しつつ検定可能性を判定することで,マイニングのプロセスの効率化を実現する.さらに,統計的に有意なアイテム集合の発見で既に提案されている,ランダム置換を用いた多重検定補正法を導入することで,さらなる検出力の増加を実現する. その後,このアルゴリズムをもとにして,木構造だけでなくグラフ一般に対して適用可能なアルゴリズムを構築する.その際,頻度ではなく,反単調性をみたす尺度NMIを用いることで,列挙の効率化を実現する.
|