研究概要 |
近年のワードプロセッサの普及と電子記憶媒体の大容量化に伴って,大容量の文書データを管理する技術が必要不可欠になってきた.文書データは,非定型データであり,文書キーワード,作成日,作成者,文書分類など多属性検索キ-付与され,利用者はこれらの属性の一部を指定して,必要な文書を検索・絞り込むことになる.本研究課題では,昨年度の研究成果に引き続いて,次の項目を研究開発した. 1.大規模文書データベースの構築 研究分担者(小野)により,日本電子化辞書研究所の文書ファイル,岩波書店の広辞苑辞書のテキストファイル,その他研究室で収集した約10年間の卒業研究,修士研究,博士研究の論文ファイルなどを約数百メガバイトを補助記憶に格納し,既に開発されている形態素解析システムを利用して,多属性キ-情報を抽出した. 2.大規模文書データベースに対する多属性キ-検索の評価 研究代表者(青江)により,7年度に開発した多属性キ-検索システムを以上の大規模文書データベースに応用して評価した.まず,抽出された多属性キ-の部分マッチ検索を属性キ-の個数を順次変更して,検索速度を測定する.次に,多属性キ-を格納する記憶量の評価を与えた. 3.従来の方法との比較と検討 研究分担者(佐藤)により,開発された従来法(ハッシュ法とB木法)による多属性キ-検索エンジンと,本研究で開発された検索エンジンの速度と記憶量の比較実験を行い,提案手法の有効性を評価した.
|