研究概要 |
本研究では,与えられた部分グラフを包含する飽和部分グラフ(その部分グラフを含むグラフのうち,同じ頻度をもち,かつ最大であるグラフ)を計算するグラフ閉包演算,および同型な部分グラフを効率的に判定する手法を実現することで,グラフデータベース中に一定頻度以上の割合で出現する頻出飽和部分グラフを効率よく列挙できる頻出飽和部分グラフマイニングシステムを実現することを目的としている.研究期間最終年度の本年度においては,研究計画に従い,前年度に実現したグラフ閉包演算を用いた頻出飽和部分グラフマイニングアルゴリズムの並列化に取り組んだ.具体的には,グラフ閉包演算の内部処理を並列化するというアプローチを取り,利用CPUコア数を増やすことによる効率化を図った.人工的に生成したグラフデータ,化合物データ,および社会ネットワーク上の情報伝搬過程から取得したネットワーク構造などを用いて行った評価実験では,一定の効率改善を確認したが,CPUコア数に対して比例するほどの台数効果が必ずしも得られない結果となった.これは,内部処理の独立性が必ずしも高くなかったこと,および実装上の技術的な問題に起因したものであり,今後,改善が可能である.現時点で数値的な評価結果は当初の予想通りではないものの,並列化による効率改善は確認できており,頻出飽和部分グラフマイニングの大規模データへの適用に向けての道筋をつけるものとして本研究で得られた知見は意義のあるものである.
|