1998 Fiscal Year Annual Research Report
文書量に依存しない高速n-gram全文検索法の実現と大規模文書への応用
Project/Area Number |
10480082
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | The University of Tokushima |
Principal Investigator |
青江 順一 徳島大学, 工学部, 教授 (90108853)
|
Co-Investigator(Kenkyū-buntansha) |
獅々堀 正幹 徳島大学, 工学部, 講師 (50274262)
佐藤 隆士 大阪教育大学, 教育学部, 助教授 (20124117)
北 研二 徳島大学, 工学部, 助教授 (10243734)
|
Keywords | 文書データ / 検索手法 / キーワード検索 / 全文検索 |
Research Abstract |
平成10年度の研究目標は、n-gram文字列索引の格納構造に対して,動的な複数キーワードの照合機械を適応した新しい検索構造を提案する点と、索引部の領域を大幅に圧縮する手法の確立であり、次が研究成果である。 1. n-gram文字列索引の格納構造としての動的な複数キーワードの照合機械の提案し、文字列の重複した部分を効率的に圧縮するための、新しい技法を確立した。 2. postingsに対する圧縮技法の提案と評価に足しては、postingsを表現する新しいベクトル表現を導入し、さらに多段階圧縮アルゴリズムを考案した。これにより、索引表全体を従来法の約10%に圧縮できた。 3. 部分文字列マッチの実現と検索性能の実験と評価としては、前方一致のみならず、後方一致、中間部分一致を一つの索引に対して高速検索できる新しい索引構造と検索アルゴリズムを確立し、実験により検索速度の性能を評価した。 4. 初年度開発エンジンの実用規模テキストデータベースへの適応と評価については、30メガバイトの実用規模テキストデータベースへ提案手法を適合し、徹底した有効性の評価を行った。この評価において、次年度以降は、10倍以上のテキストデータを収集し、実験と評価を行う計画である。
|
Research Products
(6 results)
-
[Publications] M.Fuketa: "A Fast Method of Determining Weighted Compound Keywards from Text Databases" International Journal of Information Processing & Management. 34・4. 431-442 (1998)
-
[Publications] M.Koyama: "A Fast Retrieving Algorithm of Hierarchical Relationships" International Journal of Information Processing & Management. 34・6. 761-773 (1998)
-
[Publications] 森田和宏: "トライ構造を用いた共起情報の効率的検索アルゴリズム" 情報処理学会論文誌. 39・9. 2563-2571 (1998)
-
[Publications] K.Ando: "An Extended Pattern Matching Machine for Document Processing" Computer Processing of Oriental Languages. 11・3. 223-248 (1998)
-
[Publications] M.Fuketa: "A Fast Algorithm of Retrieving Common Sentences" International Journal of Information Sciences. 109・4. 265-279 (1998)
-
[Publications] H.Mochizuki: "A Substring Search Algorithm in Extensible Hashing" International Journal of Information Sciences. 108・4. 13-30 (1998)