2018 Fiscal Year Annual Research Report
Finding Significant Subgraphs from Big Graph data
Project/Area Number |
16K16115
|
Research Institution | National Institute of Informatics |
Principal Investigator |
杉山 麿人 国立情報学研究所, 情報学プリンシプル研究系, 准教授 (10733876)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | グラフ / グラフマイニング / 統計的有意性 / 多重検定 / 検定可能性 / パターン / 情報幾何 / 半順序集合 |
Outline of Annual Research Achievements |
本研究プロジェクトでは,巨大グラフにおいて統計的に有意に出現する部分グラフを発見することを目的とし,研究をおこなった. 最初に,グラフの一種である木構造データに着目し,木パターンのマイニングアルゴリズムと Tarone の検定可能性と呼ばれる多重検定手法を融合することで,統計的に有意な木パターンを発見する手法を確立した.しかし,大規模なデータでは,(1)当初の想定以上にアルゴリズムの実行時間が増大してしまい,かつ(2)統計的に有意な部分グラフが大量に見つかり結果の解釈が困難である,という2つの課題があるという結果を得た. 課題(1)を解決するためには,木パターンのマイニングアルゴリズムそのものを改善する必要があるが,これは本研究の主要な目的からは外れてしまう.そこで,より本質的な問題解決のために,情報幾何の理論を導入することで,解の探索において不必要な領域をより積極的に削除するための基礎理論を構築した.より具体的には,巨大グラフを半順序集合として扱うことで,情報幾何で基本的な構造として用いられている二重平坦な多様体の構造が自然に導入できることを示した.二重平坦構造を構成する2つの座標系が,それぞれ指数型分布族の自然パラメータと,各部分グラフの出現回数に対応することを明らかにした.これによって,探索領域の組み合わせ爆発を回避しつつ,統計的有意性の判定を実行することができる. 最終年度では,課題(2)を解決するために,部分グラフの集合を要約するための手法を構築した.特に,確率的論理プログラミングによる学習を利用することで,部分グラフ集合を表す簡潔な表現を獲得することに成功した. さらに,得られた部分グラフ集合を適切に扱うための機械学習手法の研究を進めた.部分グラフ間の類似度を測るためのグラフカーネル手法について,広く利用可能なR及びPythonのパッケージを開発し,公開した.
|