本研究は、本構造によって表現され得る様々なデータを対象とする近似パターン照合や類似度計算の効率化を目指す。目標達成へのアプローチとして主に分離散アルゴリスムと計算量理論の観点から研究を進め、木構造データの類似度検索に関する既存の諸技術に関する知見を掘り下げるとともに、申請者等のにれまでの研究成果を発展さる。平成21年度は、研究計画の初年度として、(1)「XMLに対する高速類似検索アルゴリズムの開発」と(2)「XMLに対して有効な類似度学習手法の理論構築」に取り組んだ。XMLは非常に広い範囲で利用される汎用的なフォーマットであるが、書誌情報をはじめとすめ多くのXMLデータは、木構造のパラメータの一つである高さがそれほど大きくならずデータベース内でほぼ一定であるという特徴がある。その特徴を利用して蓍者等は高さが制限された木に対して最大共通部分木を計算する高速近似アルゴリズムを開発していた。本年度は、これとは独立な研究として、高さが制限された木の編集距離に関して、よく知られた単純なアルゴリズムの近似性能を証明し、その成果を国際会議において発表した。また、それと並行して、一般の条件において高速に木マッチングを行うための厳密アルゴリズムの研究を進め、計算機実験によって性能を確認した。今後はこれらの成果を広く提供できるよう準備を進める予定である。(2)については過去の研究を発展させ、新たな確率モデルを提案し、構造だけでなくXMLの葉にあたるテキスト部分を利用することを可能にした。これにあより類似テキストを持つXMLデータのマッチング性能について向上が期待できる。この新しい確率モデルに対しては従来の学習アルゴリズムが適用できないため、テキストマイニングにおける変文ベイズ法を応用し、与えられたXMLデータから自動的にモデルを学習するためのアルゴリズムを開発した。
|