• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2000 年度 実績報告書

文書量に依存しない高速n-gram全文検索法の実現と大規模文書への応用

研究課題

研究課題/領域番号 10480082
研究機関徳島大学

研究代表者

青江 順一  徳島大学, 工学部, 教授 (90108853)

研究分担者 獅々堀 正幹  徳島大学, 工学部, 助教授 (50274262)
佐藤 隆士  大阪教育大学, 教育学部, 助教授 (20124117)
北 研二  徳島大学, 工学部, 教授 (10243734)
キーワード文書データベース / 検索手法 / キーワード検索 / 文書検索
研究概要

本研究の目標は,postingsに対するベクトル表現を導入し,圧縮のための多段階圧縮アルゴリズムを考案することであり,postingsを従来法の約10%に圧縮するための計画を立案し,平成12年度の研究実施内容は次の通りである.
1.n-gram文字列索引の格納構造としての動的な複数キーワードの照合機械の改善.
平成10、11年度で提案した動的手法の削除に関する処理が,低速であるので,その改善を行った.11年度よりの改善率は15%であった。担当者は,青江である.
2.postingsに対する圧縮技法の提案と実験による評価.
平成11年度は,postingsの圧縮に提案した新しいベクトル表現のビット1の数の分布,さらに考案された多段階圧縮アルゴリズムの圧縮率を理論的解析で評価したので,その実験により、80%の改善を実証した.担当者は,獅々堀である.
3.部分文字列マッチの実現と検索性能の向上
平成11年度は,前方一致のみならず,後方一致,中間部分一致を一つの索引に対して高速検索できる新しい索引構造と検索アルゴリズムを確立し,実験により検索速度の性能を評価したが,速度を改善し、20%の改善率を得た.担当者は,佐藤である.
4.開発エンジンの実用規模テキストデータベースへの適応と評価.
1ギガバイト以上の実用規模テキストデータベースへの提案手法を適合し,徹底した有効性の評価と改善を継続しており、特に新聞データなどの500MBデータベースが構築できた.担当者は,北である.

  • 研究成果

    (6件)

すべて その他

すべて 文献書誌 (6件)

  • [文献書誌] K.Morita: "Fast insertion methods of a double-array structure"Software Practice & Experience. 31・1. 43-65 (2001)

  • [文献書誌] M.koyama: "A fast and compact technique of implementing transition tables for finite state automata"International Journal of Information Sciences. 129. 141-154 (2000)

  • [文献書誌] S.Mizobuchi: "An Efficient Representation for Implementing Finite State Machines Based on the Double-Array"International Journal of Information Sciences. 129. 119-139 (2000)

  • [文献書誌] M.Shishibori: "A Fast Correction Method for Erroneous Sentences Using the LR Parsing"IEICE Transactions on Information and Systems. E83-D・9. 1797-1804 (2000)

  • [文献書誌] 獅々堀正幹: "多属性項目の履歴情報に基づくメイル文書のフィルタリング手法"情報処理学会論文誌. 141・8. 2299-2308 (2000)

  • [文献書誌] M.Fuketa: "A Document Classification Method by using Field Association Words"International Journal of Information Sciences. 126. 57-70 (2000)

URL: 

公開日: 2002-04-03   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi