研究概要 |
大規模文書データベースの検索で問題となるのは,キ-に多彩なの検索条件のように複数の検索条件を同時に与えたとき,目的とする用例文が高速に絞り込まれること.また,キ-に対する文番号列が非常に長くなる場合でも,同様に高速な検索が必要であるので,昨年度までの研究成果に引き続いて,開発された検索と絞り込み技法に対して,実際の大規模文書データを実験対象として,次の研究を進めた. 1.大規模文書データの構築 日本電子化辞書研究所の文書ファイル,岩波書店の広辞苑辞典のテキストファイル,その他研究室で収集した約10年間の,卒業研究,修士研究,博士研究の論文ファイルなどを約数百メガバイトを補助記憶に格納し,既に開発されている形態素解析システムを利用して,キーワードと対応する文番号列情報を収集した. 2.大規模文書データベースに対する文番号ベクトルの検討 7年度に開発した検索システムを以上の大規模文書データベースに応用し,評価する.まず,抽出されたキーワードに対する文番号列の長さを測定し,文番号ベクトルの圧縮効果を確かめる.この確認により,文番号ベクトルを分割する最適なブロック長を決定した. 3.大規模文書データベースに対する検索と絞り込みの実験と評価 2.で決定されたブロック長で文番号ベクトルを多段階に圧縮して,検索と絞り込み時間の評価を,指定する検索条件の数,分割された文番号ブロック長の転送回数,文番号列の長さをパラメータとして,実施した.
|