2016 Fiscal Year Annual Research Report
大規模グラフの頻出部分構造を利用した高速な分析アルゴリズムの開発
Project/Area Number |
16H06650
|
Research Institution | University of Tsukuba |
Principal Investigator |
塩川 浩昭 筑波大学, 計算科学研究センター, 助教 (90775248)
|
Project Period (FY) |
2016-08-26 – 2018-03-31
|
Keywords | データベース / グラフ / アルゴリズム |
Outline of Annual Research Achievements |
本研究課題の目的は実世界の大規模グラフに対する高速な分析手法を開発することである.本研究期間を通じて,実世界のグラフが持つ頻出部分グラフ構造を捉えることで,数億ノード規模のグラフを高速に分析できる手法を提案する.特に本研究期間では申請時の研究計画に従い,大規模グラフの高速な分析手法構築に向けて,graph canonizationならびに実世界のグラフデータが持つcore-fringe構造を捉えることで,頻出部分グラフ構造を活用した大規模グラフの高速なクラスタ分析手法,および,高速なランダムウォーク分析手法の開発に取り組んでいる. 大規模グラフに対するクラスタリングの高速化に関しては,実世界のグラフデータ中に頻出する部分グラフ構造を逐次的に集約することで,既存手法と比較して60倍以上高速なアルゴリズムを構築することに成功した.さらに本年度は,頻出部分グラフ構造を効率的に捉えたことにより,既存手法よりもクラスタリング精度が向上することについても実験的に確認した.また,前述の逐次的な集約による高速化に加えて,メニーコアプロセッサを利用したアルゴリズムの超並列化についても着手した.本年度は代表的なメニーコアプロセッサであるIntel Xeon Phi (Knights Landing)を用いて予備的な手法の検討・実装を行い,非並列化時と比較して100倍以上の高速化が可能であることを実験的に確認した. 大規模グラフに対するランダムウォーク分析手法の高速化に関しては,次年度取り組み予定の計画を先行し,代表的な手法のひとつであるObjectRankを題材に,頻出部分グラフ構造毎の遷移確率収束傾向の違いを分析した.その結果として,部分グラフ構造毎に遷移確率の収束傾向に大きな違いが有ることを実験的に明らかにした.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
申請時の計画通り進捗している.本年度は実世界のグラフデータが持つcore-fringe構造や同型性判定に用いるgraph canonizationを活用することにより,頻出部分グラフ構造を捉え,グラフフラスタリングを高速化・高精度化出来ることを明らかにした.また,Intel Xeon Phiなどのメニーコアプロセッサを用いた本手法の並列化を導入した手法を検討するなど,大規模グラフクラスタリングに対する多角的な検討を実施している.加えて,次年度取組む計画であった,ランダムウォーク分析手法の高速化検討についても計画を前倒して着手しており,おおむね計画通り進行していると判断できる.
|
Strategy for Future Research Activity |
今後についても申請時の計画通り研究を遂行する.まず,グラフクラスタリングの高速化については,数億から数十億ノード規模という極めて巨大なグラフデータに対応するため,今年度までに開発したアルゴリズムを基に,さらに枝刈り手法の検討や分散並列化手法の検討を実施する.また,開発した成果(ソースコード)をソフトウェアとして公開することも進める予定である. ランダムウォーク分析手法の高速化については,現在は計画を前倒しして高速化に寄与する性質を実験的に確認した状況にある.今後はこの知見に基づき具体的な高速化アルゴリズムの構築・実装を進めることに注力する. また,次年度は最終年度に当たるため,研究成果全体の取りまとめも行う.
|