2000 Fiscal Year Annual Research Report
文書量に依存しない高速n-gram全文検索法の実現と大規模文書への応用
Project/Area Number |
10480082
|
Research Institution | The University of Tokushima |
Principal Investigator |
青江 順一 徳島大学, 工学部, 教授 (90108853)
|
Co-Investigator(Kenkyū-buntansha) |
獅々堀 正幹 徳島大学, 工学部, 助教授 (50274262)
佐藤 隆士 大阪教育大学, 教育学部, 助教授 (20124117)
北 研二 徳島大学, 工学部, 教授 (10243734)
|
Keywords | 文書データベース / 検索手法 / キーワード検索 / 文書検索 |
Research Abstract |
本研究の目標は,postingsに対するベクトル表現を導入し,圧縮のための多段階圧縮アルゴリズムを考案することであり,postingsを従来法の約10%に圧縮するための計画を立案し,平成12年度の研究実施内容は次の通りである. 1.n-gram文字列索引の格納構造としての動的な複数キーワードの照合機械の改善. 平成10、11年度で提案した動的手法の削除に関する処理が,低速であるので,その改善を行った.11年度よりの改善率は15%であった。担当者は,青江である. 2.postingsに対する圧縮技法の提案と実験による評価. 平成11年度は,postingsの圧縮に提案した新しいベクトル表現のビット1の数の分布,さらに考案された多段階圧縮アルゴリズムの圧縮率を理論的解析で評価したので,その実験により、80%の改善を実証した.担当者は,獅々堀である. 3.部分文字列マッチの実現と検索性能の向上 平成11年度は,前方一致のみならず,後方一致,中間部分一致を一つの索引に対して高速検索できる新しい索引構造と検索アルゴリズムを確立し,実験により検索速度の性能を評価したが,速度を改善し、20%の改善率を得た.担当者は,佐藤である. 4.開発エンジンの実用規模テキストデータベースへの適応と評価. 1ギガバイト以上の実用規模テキストデータベースへの提案手法を適合し,徹底した有効性の評価と改善を継続しており、特に新聞データなどの500MBデータベースが構築できた.担当者は,北である.
|
Research Products
(6 results)
-
[Publications] K.Morita: "Fast insertion methods of a double-array structure"Software Practice & Experience. 31・1. 43-65 (2001)
-
[Publications] M.koyama: "A fast and compact technique of implementing transition tables for finite state automata"International Journal of Information Sciences. 129. 141-154 (2000)
-
[Publications] S.Mizobuchi: "An Efficient Representation for Implementing Finite State Machines Based on the Double-Array"International Journal of Information Sciences. 129. 119-139 (2000)
-
[Publications] M.Shishibori: "A Fast Correction Method for Erroneous Sentences Using the LR Parsing"IEICE Transactions on Information and Systems. E83-D・9. 1797-1804 (2000)
-
[Publications] 獅々堀正幹: "多属性項目の履歴情報に基づくメイル文書のフィルタリング手法"情報処理学会論文誌. 141・8. 2299-2308 (2000)
-
[Publications] M.Fuketa: "A Document Classification Method by using Field Association Words"International Journal of Information Sciences. 126. 57-70 (2000)