1999 Fiscal Year Annual Research Report
文書量に依存しない高速n-gram全文検索法の実現と大規模文書への応用
Project/Area Number |
10480082
|
Research Institution | The University of Tokushima |
Principal Investigator |
青江 順一 徳島大学, 工学部, 教授 (90108853)
|
Co-Investigator(Kenkyū-buntansha) |
獅々堀 正幹 徳島大学, 工学部, 講師 (50274262)
佐藤 隆士 大阪教育大学, 教育学部, 助教授 (20124117)
北 研二 徳島大学, 工学部, 助教授 (10243734)
|
Keywords | 文書データベース / 検索手法 / キーワード検索 / 文書検索 |
Research Abstract |
本研究の目標は,postingsに対するベクトル表現を導入し,圧縮のための多段階圧縮アルゴリズムを考案することであり,postingsを従来法の約10%に圧縮するための計画を立案し,平成11年度の研究実施内容は次の通りである. 1.n-gram文字列索引の格納構造としての動的な複数キーワードの照合機械の改善. 平成10年度で提案した動的手法の削除に関する処理が,低速であるので,その改善を行った.担当者は,青江である. 2.postingsに対する圧縮技法の提案と実験による評価. 平成10年度は,postingsの圧縮に提案した新しいベクトル表現のビット1の数の分布,さらに考案された多段階圧縮アルゴリズムの圧縮率を理論的解析で評価したので,その実験による評価を行った.担当者は,獅々堀である. 3.部分文字列マッチの実現と検索性能の向上 平成10年度は,前方一致のみならず,後方一致,中間部分一致を一つの索引に対して高速検索できる新しい索引構造と検索アルゴリズムを確立し,実験により検索速度の性能を評価したが,速度が不十分なので,それを改善した.担当者は,佐藤である. 4.開発エンジンの実用規模テキストデータベースへの適応と評価. 1ギガバイト以上の実用規模テキストデータベースへの提案手法を適合し,徹底した有効性の評価と改善を継続した.担当者は,北である.
|
Research Products
(6 results)
-
[Publications] 辻 孝子: "複合語の分野連想語の効率的決定法"自然言語処理. 7・2. 111-125 (2000)
-
[Publications] E-S.Atlam: "Similarity Measurement Using Negative Weight Function"Information Processing & Management. (印刷中). (2000)
-
[Publications] K.Morita: "A Link Trie Structure of Staring Multi-Attribute"International Journal of Computer Mathematics. 118・2. 145-157 (1999)
-
[Publications] 溝渕 昭二: "日本語時間表現の一解釈法"情報処理学会論文誌. 40・9. 3408-3419 (1999)
-
[Publications] M.Fuketa: "Efficient Controlling of Parsing-Stack Operation"International Journal of Information Sciences. 118・1. 145-157 (1999)
-
[Publications] N.Shishibori: "Two Improved Access Methods on Compact Binary Trees"Information Processing & Management. (印刷中). (2000)