本研究では、オントロジー情報などの背景知識を考慮することで、より知的な文字列照合を行うアルゴリズムの開発を目指している。具体的には、電子的に利用可能な分類階層データベースやシソーラス情報、文章構造といったオントロジー情報を利用して動作する照合アルゴリズムを開発し、それらの統合を行う。また、それ以外のオントロジー情報についても調査を行い、知的検索のための利用を模索する。申請者はこれまでに分類階層情報を考慮した文字列照合アルゴリズムについて取り組み、一つの有効なアルゴリズムを得ている。 本年度は、Arc-annotationと呼ばれる構造が付随したテキストに対する文宇列照合アルゴリズムについて取り組み、効率のよいアルゴリズムを得ることができた。Arc-annotation付きテキストとは、テキスト中の二つの文字間になんらかの関係があるということを指し示すアーク(arc)情報が付随したテキストである。このような構造付きテキストには、たとえば日本語テキストを形態素解析して得られる「かかりうけ」構造を伴ったテキストデータが挙げられる。これに対して文字列照合を行うことができれば、大量の日本語文章群からある特定の構造を持つ文章だけを抽出するといったことができるようになる。また、文章の意味の流れを考慮したキーワード検索に応用できる。Arc-annotation付きテキストのより直接的な動機付けとしては、ゲノム情報処理における転移RNAの構造を考慮したパターン照合がある。 今回、提案したアルゴリズムを実際に実装し、転移RNAを模した擬似データを使って速度評価実験を行ったところ、J.Gramm、J.Guo、R.Niedermeierらによって2002年に提案された手法よりも約2〜5倍以上高速に動作することが判った。
|