• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

多段階ベクトルを用いた高速文書検索アルゴリズムに関する研究

研究課題

研究課題/領域番号 11780310
研究種目

奨励研究(A)

配分区分補助金
研究分野 情報システム学(含情報図書館学)
研究機関徳島大学

研究代表者

泓田 正雄  徳島大学, 工学部, 講師 (10304552)

研究期間 (年度) 1999 – 2000
研究課題ステータス 完了 (2000年度)
配分額 *注記
2,200千円 (直接経費: 2,200千円)
2000年度: 1,100千円 (直接経費: 1,100千円)
1999年度: 1,100千円 (直接経費: 1,100千円)
キーワード全文検索 / 文書データベース / 用例文 / 絞り込みアルゴリズム
研究概要

論理和を用いた検索のアルゴリズムの考案と,11年度に提案した手法を実際の大規模文書データを用いて,試験・評価を行った.
1.大規模文書データの構築
日本電子化辞書研究所の文書ファイル,岩波書店の広辞苑辞書のテキストファイル,その他研究室で収集した約10年間の卒業研究,修士研究,博士研究の論文ファイルなどを約数百メガバイトを補助記憶に格納し,既に開発されている形態素解析システムを改良(文節で解析を行えるようにした),利用して,キーワードと対応する文番号列情報を収集した.
2.大規模文書データベースに対する文番号ベクトルの検討
11年度に開発した検索システムを大規模文書データベースに応用し,評価する.まず,抽出されたキーワードに対する文番号列の長さを測定し,文番号ベクトルの圧縮効果を確かめる.この確認により,文番号ベクトルを分割する最適なブロック長を決定した.
3.大規模文書データベースに対する検索と絞り込みの実験と評価
2.で決定されたブロック長で文番号ベクトルを多段階に圧縮して,検索と絞り込み時間の評価を,検索条件の数,分割された文番号ブロック長の転送回数,文番号列の長さをパラメータとして実施した.
4.従来の方法との比較と検討
従来の手法として,文番号列を逐次比較する手法と,文番号ベクトルの単純な論理演算を行う手法をインプリメントし,同じ大規模文書データベースの検索実験により,提案手法と比較した.

報告書

(2件)
  • 2000 実績報告書
  • 1999 実績報告書
  • 研究成果

    (2件)

すべて その他

すべて 文献書誌 (2件)

  • [文献書誌] Masao Fuketa: "A Document Classification Method by using Field Association Words"International Journal of Information Sciences. 126. 57-70 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] Kazuhiro Morita: "Fast insertion methods of a double-array structure"Software Practice & Experience. 31・1. 43-65 (2001)

    • 関連する報告書
      2000 実績報告書

URL: 

公開日: 1999-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi