本研究は、木構造によって表現され得る様々なデータを対象に、近似パターン照合や類似度計算を効率良く行うための汎用的な枠組みとアルゴリズムの提案および実装を目指している。前年度までの研究によって、いくつかの指数時間アルゴリズムを構築し、理論的に興味深い成果を得ることができた。それらのアルゴリズムは、類似度が高いデータに対して有効なものや、次数や頂点のラベルが限られた場合において有効なものなど、幅広い性質を持つデータに対して選択的に適用できる可能性を有している。本年度は、それらのアルゴリズムによってカバーできない状況に対応すべく、新たなパラメータに基づいた計算効率の理論的保証付きアルゴリズムの提案を得ることができた。提案アルゴリズムは、分岐頂点の個数という新たなパラメータに着目し、なおかつ、動的計画法や最大重み付き二部マッチングなどによって既存手法を置き換えるものであり、計算効率については、先行研究によって知られていた指数時間アルゴリズムを改善する結果となった。一方、実用的には、大規模データベースへの提案手法の摘要にあたって、理論的保証のある指数時間アルゴリズムに限らず高速近似アルゴリズムによる絞り込みを活用することが効果的であることが計算機実験の結果により明らかになった。
|