研究概要 |
本研究は,従来手法では取り扱いが極めて困難な規模の半構造データから,特徴的なパターンを高速に発見するスケーラブルなマイニング技術を実現する.この目的を達成するために,情報処理技術(畳み込みカーネル,XML索引,データ圧縮アルゴリズム)を援用し,グラフ構造からのパターン発見のボトルネックである,部分グラフ同型判定を回避しつも高い精度でのパターン発見を行う,最終年度は,昨年度に引き続き以下の項目を達成するためのプログラムを完成させた. (A)畳み込みカーネルによる局所構造抽出:前年度に開発した,省メモリ化を達成するための不要パターンをあらかじめ取り除く前処理手法をグラフ構造上で実装した. (B)XML索引による構造間の距離計算:データを分割することで,大規模XMLデータに対する高速索引付けを可能とした.また,ノード間の距離計算手法を改良し局所構造間距離計算を実現した.これらの性能をデータ分割の手法をPCクラスタ上で実装し,その性能を確認した. (C)圧縮文字列照合によるパターンの類似性判定:XMLデータは頻繁にデータの更新が起こるため,データの変更に対して影響が少ない圧縮法が望ましい.そこで,前年度までに開発した適応型圧縮アルゴリズムを大規模データに適用し,規模耐性が高いことを確認した. 以上のように,最新のプログラムをPCクラスタ等の分散システム上で実装し,本研究の成果を国際会議や論文誌,国内研究会等で公表した.今後は,家庭用PCなどの環境で動作するより軽量なアルゴリズムを開発していく.
|