1996 年度実績報告書

大規模文書データベースにおける用例文の高速検索と絞り込み技法の研究

研究課題

研究課題/領域番号	07680432
研究種目	基盤研究(C)
研究機関	徳島大学
研究代表者	青江順一徳島大学, 工学部, 教授 (90108853)
キーワード	文書検索 / 文書処理 / キーワード抽出 / 文書管理
研究概要	大規模文書データベースの検索で問題となるのは,キ-に多彩なの検索条件のように複数の検索条件を同時に与えたとき,目的とする用例文が高速に絞り込まれること.また,キ-に対する文番号列が非常に長くなる場合でも,同様に高速な検索が必要であるので,昨年度までの研究成果に引き続いて,開発された検索と絞り込み技法に対して,実際の大規模文書データを実験対象として,次の研究を進めた. 1.大規模文書データの構築日本電子化辞書研究所の文書ファイル,岩波書店の広辞苑辞典のテキストファイル,その他研究室で収集した約10年間の,卒業研究,修士研究,博士研究の論文ファイルなどを約数百メガバイトを補助記憶に格納し,既に開発されている形態素解析システムを利用して,キーワードと対応する文番号列情報を収集した. 2.大規模文書データベースに対する文番号ベクトルの検討 7年度に開発した検索システムを以上の大規模文書データベースに応用し,評価する.まず,抽出されたキーワードに対する文番号列の長さを測定し,文番号ベクトルの圧縮効果を確かめる.この確認により,文番号ベクトルを分割する最適なブロック長を決定した. 3.大規模文書データベースに対する検索と絞り込みの実験と評価 2.で決定されたブロック長で文番号ベクトルを多段階に圧縮して,検索と絞り込み時間の評価を,指定する検索条件の数,分割された文番号ブロック長の転送回数,文番号列の長さをパラメータとして,実施した.

研究成果
(3件)

すべてその他

すべて文献書誌 (3件)

[文献書誌] J.AOE: "A Trie Compaction Algorithm for A Large Set of Keys" IEEE Transactions on Knowledge and Data Eng.(1996)
[文献書誌] H.Iriguchi: "A Fast Retrienal Teclcnique for Large Graph Strufures" International J.of Computer Matcematics. (1996)
[文献書誌] M.Shishibori: "An Order Searching Algorithm of Extondible Hashing" International J.of Compiter Mattcematics. (1996)