研究概要 |
論理和を用いた検索のアルゴリズムの考案と,11年度に提案した手法を実際の大規模文書データを用いて,試験・評価を行った. 1.大規模文書データの構築 日本電子化辞書研究所の文書ファイル,岩波書店の広辞苑辞書のテキストファイル,その他研究室で収集した約10年間の卒業研究,修士研究,博士研究の論文ファイルなどを約数百メガバイトを補助記憶に格納し,既に開発されている形態素解析システムを改良(文節で解析を行えるようにした),利用して,キーワードと対応する文番号列情報を収集した. 2.大規模文書データベースに対する文番号ベクトルの検討 11年度に開発した検索システムを大規模文書データベースに応用し,評価する.まず,抽出されたキーワードに対する文番号列の長さを測定し,文番号ベクトルの圧縮効果を確かめる.この確認により,文番号ベクトルを分割する最適なブロック長を決定した. 3.大規模文書データベースに対する検索と絞り込みの実験と評価 2.で決定されたブロック長で文番号ベクトルを多段階に圧縮して,検索と絞り込み時間の評価を,検索条件の数,分割された文番号ブロック長の転送回数,文番号列の長さをパラメータとして実施した. 4.従来の方法との比較と検討 従来の手法として,文番号列を逐次比較する手法と,文番号ベクトルの単純な論理演算を行う手法をインプリメントし,同じ大規模文書データベースの検索実験により,提案手法と比較した.
|