研究概要 |
本研究は, 従来手法では取り扱いが極めて困難な規模の半構造データから, 特徴的なパターンを高速に発見するスケーラブルなマイニング技術を実現する. この目的を達成するために, 情報処理技術(畳み込みカーネル, XML索引, データ圧縮アルゴリズム)を援用し, グラフ構造からのパターン発見のボトルネックである, 部分グラフ同型判定を回避しつも高い精度でのパターン発見を行う. 本年度の研究成果を以下にまとめる. ML索引による構造間の距離計算 : 抽出した局所構造がどのように結合してグラフに埋め込まれているかを計算することは, 部分グラフ同型問題と等価である. そこで, 局所構造間の距離が高速に計算できれば, それらのグラフ上における大まかな配置を求めることが出来る. したがって, それらのうち互いに近いもの同士がパターンを形成していることが予測できる. 本研究では, グラフ上の接続関係を判定するアルゴリズムを, 接点間の距離が計算できるものへと改良してこの問題を解決した. 圧縮文字列照合によるパターンの類似性判定:グラフ構造だけではなくテキストや属性値の類似性にも着目して特徴パターンの抽出精度を向上させた. 同じ構造を持つパターン内の属性値などは, 値は異なるもののその書式は似通っていると考えられる. このような仮定から, あらかじめ属性やテキスト部分を圧縮保存しておき, 必要に応じてその類似性を計算する手法を開発した. これらの技術を応用して, 次年度以降で, 関連技術を発展させて目的のパターンを抽出するシステムを完成する.
|