研究概要 |
大規模文書データベースの検索で問題となるのは,キ-に多彩なの検索条件(名詞+の+名詞,場所概念+を,を+飲むなど)のように複数の検索条件を同時に与えたとき,目的とする用例文が高速に絞り込まれること,また,キ-に対する文番号列が非常に長くなる場合でも,同様に高速な検索が必要であるので,本研究では,次の点を明らかにした. 1. 全用例に対する文番号を文番号ベクトルとして構成し,各索引に対する文番号列を(文番号に対応する位置のビットを1とする)で表現した. 2. 文番号の比較による絞り込みは,文番号ベクトルの効率的な論理積で実行できるが,このベクトルは非常に長く,しかもスパースであるので,多段階の圧縮するデータ構造を提案し,対応する検索法も提案した. 3. 1億用例の文書データベースに対して,数百万以上の文番号列が存在しても,約数秒以内で検索と絞り込みができることを実験で確認した. 従来の研究では,キ-に対応する文番号列を逐次比較する手法であったので,検索条件数に比例して,絞り込み時間が長くかかっていた.しかし,本研究では,この検索条件が多くなるほど絞り込み速度は加速されるので,従来の手法の欠点をまったく覆す特色と独創性をもつ検索手法が実現する.また,提案手法は,二次記憶から補助記憶に大量の文番号列を転送する必要がなくなり,ディスクアクセスの高速化も同時に実現でき,従来では数分必要であった検索時間が数秒で実現できた. これらの成果は,大量に構築された電子化文書から目的とする文書データを処理する特許文書,辞書管理,社内文書など高速に検索と絞り込みに広く利用できることができるので,研究成果が与える社会的意義は非常に大きいといえる.
|