1997 Fiscal Year Annual Research Report
大規模文書データベースにおける用例文の高速検索と絞り込み技法の研究
Project/Area Number |
07680432
|
Research Institution | The University of Tokushima |
Principal Investigator |
青江 順一 徳島大学, 工学部, 教授 (90108853)
|
Keywords | 用例文検索 / 文書データベース / 絞り込み検索 / 文書検索 / 情報検索 |
Research Abstract |
大規模文書データベースの検索で問題となるのは,キ-に多彩な検索条件(名詞十の十名詞,場所概念十を,を十飲むなど)のように複数の検索条件を同時に与えたとき,目的とする用例文が高速に絞り込まれること.また,キ-に対する文番号列が非常に長くなる場合でも,同様に高速な検索が必要であるので,本研究では,次の点を明らかにした. 1.全用例に対する文番号を文番号ベクトルとして構成し,各索引に対する文番号列を(文番号に対応する位置のビットを1とする)で表現した. 2.文番号の比較による絞り込みは,文番号ベクトルの効率的な論理積で実行できるが,このベクトルは非常に長く,しかもスパースであるで,多段階の圧縮するデータ構造を提案し,対応する検索法も提案した. 3.1億円例の文書データベースに対して,数百万以上の文番号列が存在しても,約数秒以内で検索と絞り込みができることを実験で確認した. 従来の研究では,キ-に対応する文番号列を逐次比較する手法であったので,検索条件数に比例して,絞り込み時間が長くかかっていた.しかし,本研究では,この検索条件が多くなるほど絞り込み速度は加速されるので,従来の手法の欠点をまったく覆す特色と独創性をもつ検索手法が実現する.また,提案手法は,二次記憶から補助記憶に大量の文番号列を転送する必要がなくなり,ディスクアクセスの高速化も同時に実現でき,従来では数分必要であった検索時間が数秒で実現できた. これらの成果は,大量に構築された電子化文書から目的とする文書データを処理する特許文書,辞書管理,社内文書など高速に検索と絞り込みに広く利用できることができるので,研究成果が与える社会的意義は非常に大きいといえる.
|
Research Products
(6 results)
-
[Publications] S.Shishibori: "Design of a Compact Data Structure for the Patricia Trie" IECE Trans.on Information and Systems. (印刷中). (1998)
-
[Publications] H.Mochizuki: "A Substring Search Algorithm in Extendible Hashing" International Journal of Information Science. (印刷中). (1998)
-
[Publications] 有田 健: "特徴ベクトルによる全文検索の一改善法" 情報処理学会論文誌. (印刷中). (1998)
-
[Publications] 小山 雅史: "格構造解析における概念階層の効率的判定アルゴリズム" 情報処理学会論文誌. 39・3(印刷中). (1998)
-
[Publications] M.Fuketa: "An Efficient Algorithm for Retrieving Example Santences" International Journal of Information Sciences. 印刷中. (1998)
-
[Publications] 泓田 正雄: "大規模文書データに対する用例文の効率的検索アルゴリズム" 情報処理学会論文誌. 38・10. 2004-2013 (1997)