研究概要 |
正規表現を用いたテキストの照合は,現在広く用いられている情報処理の基盤技術のひとつであり,正規表現エンジンの様々な実装が存在する.しかしながら,従来の正規表現エンジンには,(1)入力によっては照合にかかる計算コストが爆発に増大し事実上計算出来なくなる,(2)効率を犠牲にせずPOSIX規格準拠することが難しい,(3)アルゴリズムの正当性が厳密に証明されておらず重大なバグが発見されることがある,といった問題のいずれかを持っている.そこで,従来の実装の多くがバックトラックに基づいているのに対し,Glushkovオートマトン(ポジション・オートマトン)の独自改良に基づく新たなアルゴリズムを開発し,これらの問題を解決しようというのが,本研究である. 初年度である平成22年度には,当初の研究計画通り,照合アルゴリズムの基本設計を完了した.これにより,(1)POSIXの最左・最長規則を,構文木を用いて簡潔かつ厳密に形式化する方法,(2)Glushkovオートマトンに正規表現の部分式に関する情報を補うことで最左・最長規則にしたがう照合パスを表現するタグ付きオートマトンの考案,及び正規表現からタグ付きオートマトンを構築する方法,(3)このタグ付きオートマトン上で,バックトラックに拠らずに,あいまいさのないパターン照合を実現する照合アルゴリズム,の3点を明らかにした.また,プロトタイプの試験実装を行い,実際の効果を検証した.これらの成果については,国際会議で公表した.また,このアルゴリズムの正当性の証明をほぼ完成しており,これに関しては,現在,投稿準備中である.
|