2007 Fiscal Year Annual Research Report
分散型ワーカモデル,グリッド環境における並列データマイニング処理の研究
Project/Area Number |
06J00205
|
Research Institution | Hiroshima City University |
Principal Investigator |
高木 允 Hiroshima City University, 情報科学研究科, 特別研究(DC1)
|
Keywords | データマイニング / 並列処理 |
Research Abstract |
1.グラフマイニングの研究として,コミュニティ発見に関する研究を行った.本研究では,頻出部分グラフの抽出を頻出アイテム集合抽出問題に変換し,頻出アイテム集合抽出法として提案されているLCM法を使用することで高速な頻出部分グラフ抽出を可能とした.頻出部分グラフのクラスタリングには,Newmanらによって提案されている階層的なクラスタリング手法を用い高速にコミュニティを発見する.提案手法の有効性を示すために,収集したブログ記事から人をノードとしたグラフを作成し,評価実験を行った.結果として,話題の偏ったクラスタが発見され,コミュニティと呼べる部分構造を取り出すことに成功した.得られた研究成果を国際会議(PDPTA2007)に投稿し,口頭発表を行った. 2.上記1.の研究を踏まえ,ひとつのノードが複数のクラスタ(コミュニティ)に所属していることを許したクラスタリングアルゴリズムを,Newmanらの提案しているクラスタリングアルゴリズムを改良することで実現した.重複を許すことでより自然なクラスタリング結果となる.1.で収集したデータに提案手法を適用した結果,複数のコミュニティに重複して所属しているノードを発見できた.tf-idf法などを用いてコミュニティを解析した結果,重複してクラスタリングされたノードは,複数のコミュニティの橋渡しをしているノードであることが分かった.得られた研究成果を国際会議(IWI2007)に投稿し,口頭発表を行った.また,1.の研究成果とまとめた結果を情報処理学会論文誌に投稿し,採録された. 3.より大規模なグラフを高速にクラスタリングするために,並列化クラスタリング手法の検討を行った.まず,Normalized Cutというグラフを均等に分割する手法によりグラフを複数の部分グラフに分割する.分割された部分グラフを複数のPC上で,Newmanらが提案しているクラスタリングアルゴリズムを用いて並列にクラスタリングする.2台のPC(マスタワーカモデル)を用いた評価実験では,逐次ではクラスタリングに8時間かかる大規模なグラフを1時間半でクラスタリングできた.今後,台数を増やして評価実験を行う予定である.
|
Research Products
(5 results)