2004 Fiscal Year Annual Research Report
WWWに適用可能な半構造データマイニングの高速化と実用化
Project/Area Number |
16300030
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Tokyo Metropolitan University |
Principal Investigator |
石川 博 東京都立大学, 工学研究科, 教授 (60326014)
|
Co-Investigator(Kenkyū-buntansha) |
片山 薫 東京都立大学, 工学研究科, 助手 (00336520)
|
Keywords | データマイニング / グラフマイニング / 部分グラフ同型判定 / グラフマッチング / 半構造データ / XML / WWW(World Wide Web) / Peer to Peer(P2P) |
Research Abstract |
今年度は,グラフとして表現されるデータを対象としたデータマイニング(グラフマイニング)の効率化に関する研究と,Peer To Peer(P2P)ネットワークを利用したデータマイニング処理手法に関する研究を行った. グラフマイニングは,頻出部分グラフの候補を効率的に生成する部分と,候補グラフがグラフ集合の頻出部分グラフであるかを判定する部分の処理に分けることができ,後者に重点をおいて研究を進めた。あるグラフが他のグラフの部分グラフになっているかを判定する問題(部分グラフ同型判定問題)はNP完全であることが知られており,多項式時間のアルゴリズムを構築することは不可能だと考えられている.Messmmerらは,大量のグラフに対してあるグラフとの包含関係を調べる問題について,特別なデータ構造を構築することで処理を効率化することを提案したが,我々はMessmerらのアルゴリズムを詳しく調べ,グラフマイニングで利用する連結グラフに適したものに改良することによって,さらに処理を効率化できることを発見した.人工的なデータを対象として実験を行ったところ,Messmerらのアルゴリズムをかなり効率化できることが分かった. また,Peer To Peer(P2P)で接続された複数の計算機を協調させることで大規模なデータを対象としたマイニングを実現する手法についても研究を行った.我々の手法では,マイニング処理を行う前にP2P上の計算機を探して予約すると共に,小さなデータを処理させてその性能を推測する.それぞれの計算機の性能に応じてデータ処理の負荷を分散し,システム全体の性能を効率化する.予備的な実験において,その効果を確認した.
|