2004 Fiscal Year Annual Research Report
構造データからパタン発見に関する効率的で大規模化可能なアルゴリズムに関する研究
Project/Area Number |
04F04734
|
Research Institution | Osaka University |
Principal Investigator |
元田 浩 大阪大学, 産業科学研究所, 教授
|
Co-Investigator(Kenkyū-buntansha) |
TERMIER ALEXANDRE 大阪大学, 産業科学研究所, 外国人特別研究員
|
Keywords | データマイニング / 知識発見 / 木構造 / 飽和頻出パタン |
Research Abstract |
研究実績は以下のとおり. 1.木構造発掘プログラムDRYADEで採用している飽和頻出木探索アルゴリズムを改良し,完全探索を可能にした.完全探索を可能にするために,"Weighted support"と呼ばれる新しい支持度を定義し,これが閾値以上のものに対してのみ頻出木のマッピングを考慮する."Weighted support"を使うアルゴリズムの正当性を数学的に証明した. 2.DRYADEの高速化に関し,次の3点から検討した. (a)飽和頻出木探索アルゴリズムの高速化をはかるため,LCM2アルゴリズム(国立情報学研究所で開発)の原理を採用し,DRYADE用に修正した.その結果,20倍の高速化を達成した. (b)DRYADEの他の短所はパタン同志の相互マッピングの判定に時間がかかることであり,これが実行時間の3分の1を占めでいる.これを改善するため,最初のパタン作成時に,前もって,必要なマッピング情報を保持するようにデータ構造を変更した.その結果,マッピング可能性探索に要するテストが不要となし,5倍の高速化を達成した. (c)階層の深い木構造をした多量のデータを高速処理する有望な手段として,演算処理の並列化を試みた.並列処理可能な部分を洗い出し,4台のPCクラスタで実験を開始した.「Rocks 3.3.2」というクラスタ専用のリナックスを採用し,クラスタを設定した.クラスタ間の通信には,1)1台のPC中の2つのプロセッサ間通信のためには,Posix Threadsを使い,2)PC間の通信には,標準的なMPIのライブラリを使用する.Posix ThreadsとMPIを同時に使うことが最近の有望な並列処理の方法となっている.現在のアルゴリズムは,PC数とプロセッサ数に制限を受けない汎用性の高いものになっている.
|