2009 Fiscal Year Annual Research Report
グラフの局所的構造に基づく大規模半構造データからの高速パターン発見
Project/Area Number |
20700143
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
坂本 比呂志 Kyushu Institute of Technology, 大学院・情報工学研究院, 准教授 (50315123)
|
Keywords | 情報抽出 / カーネル法 / パターン発見 / 距離計算 / 圧縮文字列照合 / アルゴリズム |
Research Abstract |
本研究は,従来手法では取り扱いが極めて困難な規模の半構造データから,特徴的なパターンを高速に発見するスケーラブルなマイニング技術を実現する.この目的を達成するために,情報処理技術(畳み込みカーネル,XML索引,データ圧縮アルゴリズム)を援用し,グラフ構造からのパターン発見のボトルネックである,部分グラフ同型判定を回避しつも高い精度でのパターン発見を行う.本年度の研究成果を以下にまとめる. (A) 畳み込みカーネルによる局所構造抽出:前年度に開発した高速半構造データ処理技術をもとに,省メモリ化を達成するための不要パターンをあらかじめ取り除く前処理手法を新たに開発した. (B) XML索引による構造間の距離計算:データを分割することで,より大規模なXMLデータに対する高速ラベル付けアルゴリズムを開発し、実験によってその有効性を示した. (C) 圧縮文字列照合によるパターンの類似性判定:XMLデータは頻繁にデータの更新が起こるため,データの変更に対して影響が少ない圧縮法が望ましい.そこで,開発した圧縮アルゴリズムを適応型に改良することで,データの更新に対して頑健な圧縮アルゴリズムを開発した. 以上のようにして開発した新しい技術を統合することにより,来年度は,大規模半構造データからの高速パターン発見システムを実現する.そして,構造の異なるXMLデータ毎にその性能を確かめ,その実験結果を基にシステムのブラッシュアップを行う.これらの目標を達成することで,最終年度における局所構造からの高速パターン発見システムを完成させることが可能となる.
|