2018 Fiscal Year Research-status Report
Statistical mechanical study on relaxation of the bipartite constraint in community detection of graphs
Project/Area Number |
18K18127
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
川本 達郎 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (10791444)
|
Project Period (FY) |
2018-04-01 – 2020-03-31
|
Keywords | 検出限界 / ランダムグラフ / 貪欲法 / 全域木 / 抵抗距離 / 行列木定理 / グラスマン代数 |
Outline of Annual Research Achievements |
本研究は、新しい大規模自由記述アンケートフレームワーク確立に向けた理論研究という位置付けである。 本研究で解決したい問題は、2部グラフとして与えられたデータに対するパフォーマンスの理解である。そのために、まずは2部グラフのクラスタリングアルゴリズムとしてよく知られているLarremoreら(2014)によるアルゴリズムの理解を深めることを目標とした。この方法では、最もシンプルな、貪欲法が採用されている。貪欲法自体の、stochastic block model上の統計的有意性の解析がそもそも明らかになっていないことから、その研究に取り組み、理論的な結果を得た。これはPhysical Review EのRapid Communicationsから出版されている。この研究については、今後も発展させたいと考えている。 アンケートの実データを収集し、解析していく中で、極度にスパースなデータになった場合、通常のランダムグラフモデルによるベイズ推論の方法が構造を検出できない(一様データであるという結果を返す)問題も明らかになってきた。これは、2部グラフ制約のもとでは特にスパースになりやすいことと関連していると考えられる。その一方で、ランダムグラフモデルに基づかない、グラフ上の経路に基づく手法は妥当な結果を返すことも経験的に明らかになってきた。そこで、グラフ上の経路に関する統計性を理解する目的で研究を進めている。全域木の統計量として抵抗距離(resistance distance)というものがあるが、それに関連する関係式を、グラスマン代数を用いて理論的に整理する研究が進み、現在論文投稿準備中である。経路に基づく手法がなぜスパースな2部グラフでうまく機能するのかについて理解するには、resistance distanceの分布の情報を引き出すことが必要であり、次はその研究に着手する予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画である1部グラフ展開は、調査を進めていくうちに、必ずしもうまくいかない可能性があることが発覚し、ひとまずペンディングという方針をとった。しかし、一方で、2部グラフを扱う上での実用的な問題について理論的な知見を与えることに成功した。また、実データ解析を進めていく中で見つけた新たな(おそらく2部グラフであることと関連の深い)問題についても、興味深い進捗があり、論文としてまとめるに至っている。
|
Strategy for Future Research Activity |
一旦2部グラフであるという設定を外れて、実用上重要な問題に対して知見を増やしてきた。今後は、これまでの成果をさらに一般論として発展させていくと共に、2部グラフとの接点にも意識して研究を進めていきたいと考えている。 具体的には、貪欲法のパフォーマンス解析については、実データ上での評価を行うために、信念伝搬法を用いたアプローチを開発していくと共に、2部グラフの場合についての拡張も行なっていく予定である。 経路に基づく手法については、resistance distanceの分布、特に分散の振る舞いを、平均場計算によって明らかにすることを目指している。
|